位置:成果数据库 > 期刊 > 期刊详情页
一种基于MapReduce的频繁闭项集挖掘算法
  • ISSN号:1003-6059
  • 期刊名称:模式识别与人工智能
  • 时间:2012.4.15
  • 页码:220-224
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]南京大学计算机软件新技术国家重点实验室,南京210093
  • 相关基金:国家自然科学基金项目(No.61035003,60875011,60721002)、国家973计划项目(No.2010CB327903)、科技部国际科技合作计划项目(No.2010DFA11030)和江苏省自然科学基金项目(No.BK2010054)资助
  • 相关项目:基于云计算的海量数据挖掘
中文摘要:

频繁闭项集的挖掘是发现数据项之间关联规则的一种有效方式.当前以MapReduce模式为基础的云计算平台为解决海量数据中的关联规则挖掘问题提供新的解决思路.文中提出并实现一种基于Hadoop云计算平台的频繁闭项集的并行挖掘算法.该算法主要包括并行计数、构造全局频繁项表、并行挖掘局部频繁闭项集和并行筛选全局频繁闭项集四个步骤.在多个数据集上的实验表明,该方法能较大提高数据挖掘的效率,具有较好的加速比.

英文摘要:

Closed frequent itemset mining is an useful way for discovering association rules from data. Cloud computing infrastructure based on MapReduce provides a promising solution to address the problem. A parallel algorithm for mining closed frequent itemset is presented based on the Hadoop cloud computing platform. The method consists of four steps : parallel counting, global F-List constructing, parallel mining of local closed frequent itemset and parallel filtrating of global closed frequent itemset. The experimental results validate the method and show that it is effective with a satisfied speedup.

同期刊论文项目
期刊论文 172 会议论文 96 获奖 10 专利 3 著作 7
期刊论文 167 会议论文 54 专利 34
同项目期刊论文
期刊信息
  • 《模式识别与人工智能》
  • 中国科技核心期刊
  • 主管单位:中国科学技术协会 中国自动化学会
  • 主办单位:国家智能计算机研究开发中心 中国科学院合肥智能机械研究所
  • 主编:郑南宁
  • 地址:安徽省合肥市蜀山湖路350号中国科学院合肥智能机械研究所
  • 邮编:230031
  • 邮箱:bjb@iim.cas.cn
  • 电话:0551-5591176
  • 国际标准刊号:ISSN:1003-6059
  • 国内统一刊号:ISSN:34-1089/TP
  • 邮发代号:26-69
  • 获奖情况:
  • 国内外数据库收录:
  • 被引量:10169