位置:成果数据库 > 期刊 > 期刊详情页
基于Map Reduce的序列模式挖掘算法
  • ISSN号:1000-3428
  • 期刊名称:《计算机工程》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]山东师范大学信息科学与工程学院,济南250014, [2]山东省分布式计算机软件新技术重点实验室,济南250014, [3]山东警察学院公共基础部,济南250014
  • 相关基金:国家自然科学基金资助项目(60873247); 山东省自然科学基金资助项目(ZR2009GZ007)
中文摘要:

传统数据挖掘算法在处理海量数据集时计算能力有限。为解决该问题,提出一种基于Map Reduce的分布式序列模式挖掘算法MR PrefixSpan。在PrefixSpan算法的基础上,对模式挖掘任务进行分割,利用Map函数处理由不同前缀得到的序列模式,并行构造投影数据库,从而提高挖掘效率及简化搜索空间。采用Reduce函数对中间结果进行规约,得到全局序列模式。在Hadoop集群上的实验结果表明,MR PrefixSpan能减少数据库扫描时间,具有较高的并行加速比和较好的可扩展性。

英文摘要:

Traditional data mining algorithm has computing power shortage in dealing with mass data set.Aiming at the problem,a distributed sequential pattern mining algorithm based on Map Reduce programming model named MR PrefixSpan is proposed.Mining tasks are decomposed to many,the Map function is used to mine each Prefix projected sequential pattern,and the projected databases are constructed parallelly.It simplifies the search space and acquires a higher mining efficiency.Then the intermediate values are passed to a Reduce function which merges together all these values to produce a possibly smaller set of values.Experimental results on Hadoop cluster show that MR PrefixSpan can reduce the time of scanning data base,has higher parallel speed up ratio and better expansibility.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机工程》
  • 北大核心期刊(2014版)
  • 主管单位:中国电子科技集团公司
  • 主办单位:华东计算技术研究所 上海市计算机学会
  • 主编:游小明
  • 地址:上海市桂林路418号
  • 邮编:200233
  • 邮箱:ecice06@ecict.com.cn
  • 电话:021-64846769
  • 国际标准刊号:ISSN:1000-3428
  • 国内统一刊号:ISSN:31-1289/TP
  • 邮发代号:4-310
  • 获奖情况:
  • 1999~2000、2001~2002年度信息产业部优秀期刊奖,2003-2004、2005-2006年度信息产业部电子精品科技...,2007-2008、2009-2010年度工业和信息产业部电子精...,012年度中国科技论文在线优秀期刊一等奖,2013年度中国科技论文在线优秀期刊二等奖
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:84139