位置:成果数据库 > 期刊 > 期刊详情页
MapReduce框架下基于抽样的分布式K-Means聚类算法
  • ISSN号:1671-5489
  • 期刊名称:《吉林大学学报:理学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]东北电力大学信息工程学院,吉林吉林132012, [2]国网吉林供电公司信息通信分公司,吉林吉林132000
  • 相关基金:国家自然科学基金(批准号:51277023)和吉林省科技发展计划项目(批准号:20140204071GX).
中文摘要:

提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行优化.实验结果表明,该算法在保持良好聚类效果的同时,能有效缩短聚类时间,对大规模数据集具有较高的执行效率和较好的可扩展性.

英文摘要:

We proposed a distributed K-Means clustering algorithm based on sampling under MapReduce framework, in order to solve the problems of high time cost of parallel execution of K-Means algorithm in the massive data environment. The algorithm used sampling algorithm to reduce the original data size on the premise of ensuring the invariant data distribution, and the clustering algorithm was optimized under the MapReduce framework. The experimental results demonstrate that the algorithm can effectively reduce the clustering time while maintaining good clustering effect, and it has high execution efficiency and good scalability for large scale datasets.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《吉林大学学报:理学版》
  • 北大核心期刊(2011版)
  • 主管单位:教育部
  • 主办单位:吉林大学
  • 主编:裘式纶
  • 地址:长春市南湖大路5372号
  • 邮编:130012
  • 邮箱:sejuj@mail.jlu.edu.cn
  • 电话:0431-88499428
  • 国际标准刊号:ISSN:1671-5489
  • 国内统一刊号:ISSN:22-1340/O
  • 邮发代号:12-19
  • 获奖情况:
  • 在吉林省、教育部及全国优秀科技期刊评比中共获奖1...,2008年被评为"中国精品科技期刊", 并获教育部"第...,2009年获全国高校科技期刊优秀编辑质量奖,并被吉...,2008年和2009年连续两次获"中国科技论文在线优秀期...,2010年获教育部"第三届中国高校优秀科技期刊"奖
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:6314