位置:成果数据库 > 期刊 > 期刊详情页
基于Spark的Apriori算法的改进
  • ISSN号:1000-1832
  • 期刊名称:《东北师大学报:自然科学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:长春工业大学计算机科学与工程学院,吉林长春130012
  • 相关基金:国家自然科学基金资助项目(61472049);吉林省自然科学基金资助项目(20130101055JC);吉林省科技发展计划项目(20150204005GX);长春市重大科技攻关计划项目(14KG082)
中文摘要:

基于Spark大数据框架,将传统Apriori算法进行并行化处理,提出了一种改进的并行化AMRDD算法,使Apriori算法能够适用于大数据关联规则的挖掘.该算法利用Spark基于内存计算的抽象对象存储频繁项集,通过引入矩阵概念减少扫描事务数据库的次数,应用局部剪枝和全局剪枝方法缩减生成候选频繁项集的数量.通过搭建Spark平台实现该算法,并与传统Apriori算法和基于Hadoop的Apriori算法进行性能上的比较.结果表明,该算法能够较大程度地提高大数据关联规则挖掘的效率.

英文摘要:

The AMRDD algorithm is proposed on the basis of the traditional Apriori algorithm,which is a distributed association rules algorithm based on Spark.To reduce the times of scanning the database,the matrix is introduced,and the number of candidate frequent itemsets is reduced by using local pruning strategy and global pruning strategy.The algorithm is realized on Spark platform,and compare with the traditional Apriori algorithm and the Apriori algorithm based on Hadoop.The experimental results show that AMRDD algorithm performs effectively on big data for mining frequent itemsets.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《东北师大学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:教育部
  • 主办单位:东北师范大学
  • 主编:刘宝
  • 地址:长春市净月大街2555号
  • 邮编:130117
  • 邮箱:dslkxb@nenu.edu.cn
  • 电话:0431-89165992
  • 国际标准刊号:ISSN:1000-1832
  • 国内统一刊号:ISSN:22-1123/N
  • 邮发代号:12-43
  • 获奖情况:
  • 中文综合性科学技术类核心期刊,中国科学引文数据库来源期刊,中国科技论文统计源期刊,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,美国生物科学数据库,英国动物学记录,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:7830