位置:成果数据库 > 期刊 > 期刊详情页
基于Hadoop的DG-Apriori算法
  • ISSN号:1000-386X
  • 期刊名称:《计算机应用与软件》
  • 时间:0
  • 分类:TP301.6[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
  • 作者机构:桂林电子科技大学信息与通信学院,广西桂林541004
  • 相关基金:国家自然科学基金(6i36303I,61461010);广西高校云计算与复杂系统重点实验室研究课题(14i01);桂林电子科技大学研究生教育创新计划(GDYCSZ201450)
中文摘要:

针对Apriori算法需要多次扫描数据库、产生庞大的候选项集和计算时间过长等问题,提出一种基于Hadoop平台的DG-Apriori算法。该算法改进了频繁项集的连接方式,只需用频繁(k-1)-项集与频繁1-项集连接即可生成频繁融项集,极大地减少了连接次数,避免了产生庞大的候选项集,并且将改进后的Apriori算法以并行处理方式移植到Hadoop平台,并行地计算频繁项集,减少了计算时间。实验结果表明,DG-Apriori算法大大提高了Apriori算法的性能。

英文摘要:

Aiming at the problem that the Apriori algorithm needs to scan the database repeatedly and generates large candi- date item sets and has long computation time, a DG-Apriori algorithm based on Hadoop is proposed, The algorithm im- proves connection of frequent item sets, the generation of k-frequent item sets is only needed to join 1-frequent item sets with (k-1)-frequent item sets, the connection number is greatly reduced and the huge candidate item sets are avoided. And the improved Apriori algorithm is used for Hadoop platform to compute parallel frequent item sets and reduce the computa- tion time. Experimental results show that DG-Apriori algorithm can effectively improve the performance of Apriori algo- rithm.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用与软件》
  • 北大核心期刊(2011版)
  • 主管单位:上海科学院
  • 主办单位:上海市计算技术研究所 上海计算机软件技术开发中心
  • 主编:朱三元
  • 地址:上海市愚园路546号
  • 邮编:200040
  • 邮箱:cas@sict.stc.sh.cn
  • 电话:021-62254715 62520070-505
  • 国际标准刊号:ISSN:1000-386X
  • 国内统一刊号:ISSN:31-1260/TP
  • 邮发代号:4-379
  • 获奖情况:
  • 全国计算机类中文核心期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2011版),中国北大核心期刊(2000版)
  • 被引量:27463