位置:成果数据库 > 期刊 > 期刊详情页
基于熵相关系数的关联性自动判别方法——COCA
  • ISSN号:1001-9081
  • 期刊名称:《计算机应用》
  • 时间:0
  • 分类:TP311.132[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国人民大学信息学院,北京100872
  • 相关基金:国家自然科学基金资助项目(60473069;60496325)
中文摘要:

数据库自管理、自调优中查询计划的自动优化是目前的关注热点。为保证优化器估值精度,用统计学方法,给出了一种基于熵相关系数的对字段关联性的自动判别的新算法——COCA。该算法有下列特点:(1)限制少,没有卡方检验的频数限制,卡方检验只有在列联表中至少有80%的格子频数大于5的情况下才可信;(2)结果多,卡方检验(CORDS)只判断字段之间是否有关联,新方法可计算字段之间双向的关联程度。实验表明,新方法更坚固,产生更多的统计信息,可以支持后面更高效、准确地建立直方图。

英文摘要:

Self-managing and self-optimizing is currently a hot research field in database. To guarantee the accuracy of the estimates made by optimizer, this paper proposed a new method named COCA (entropy-COrrelated-Coefficient-based Auto-detection of association). In comparison with CORDS, COCA has the following features: (1) Fewer limitations. It overcomes the limitation that Chi-square test needs at least 80% of the cells in the contingency table have frequencies greater than 5. (2) More results. CORDS can tell the correlation between columns, while COCA can further discern the specific association degree for both directions. Experiments show that COCA is more robust and produces more statistical information, which is supportive to the creation of more effective and efficient histograms.

同期刊论文项目
期刊论文 36 会议论文 12 获奖 2
同项目期刊论文
期刊信息
  • 《计算机应用》
  • 北大核心期刊(2011版)
  • 主管单位:四川省科学技术协会
  • 主办单位:四川省计算机学会中国科学院成都分院
  • 主编:张景中
  • 地址:成都市人民南路四段九号科分院计算所
  • 邮编:610041
  • 邮箱:xzh@joca.cn
  • 电话:028-85224283
  • 国际标准刊号:ISSN:1001-9081
  • 国内统一刊号:ISSN:51-1307/TP
  • 邮发代号:62-110
  • 获奖情况:
  • 全国优秀科技期刊一等奖,国家期刊奖提名奖,中国期刊方阵双奖期刊,中文核心期刊,中国科技核心期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:53679