位置:成果数据库 > 期刊 > 期刊详情页
Kmeans算法的Spark实现及优化
  • ISSN号:1008-5564
  • 期刊名称:《西安文理学院学报:自然科学版》
  • 时间:0
  • 分类:TP311.13[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]安徽职业技术学院信息工程系,合肥230011, [2]合肥工业大学管理学院,合肥230009
  • 相关基金:国家自然科学青年基金:“基于多重分形和文本数据流技术的网络金融信息动态挖掘研究”(71301041)
中文摘要:

聚类算法作为机器学习领域的一个至关重要的算法体系,已经被深入研究和广泛使用了很多年,其主要研究内容集中在用相似距离作为依据,其中Kmeans算法应用极为广泛,被添加到各种数据挖掘软件包中.传统的Kmeans算法不能满足今天大数据环境下的应用,文中利用Spark技术将其改进为并行化的设计思想并进行优化.

英文摘要:

As one of the most important algorithms in the field of machine learning, clustering algorithm has been studied and widely used for many years. The main research content is based on the similarity distance, in which the Kmeans algorithm is widely used and is added to various data mining software packages. The traditional Kmeans algorithm can not meet the needs of today's big data environment, in this paper, we use Spark technology to improve the design idea and optimize it.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《西安文理学院学报:自然科学版》
  • 主管单位:西安市教委
  • 主办单位:西安文理学院
  • 主编:王新奇
  • 地址:西安市雁塔区太白南路168号
  • 邮编:710065
  • 邮箱:wlxbzk@163.com
  • 电话:029-88855690
  • 国际标准刊号:ISSN:1008-5564
  • 国内统一刊号:ISSN:61-1441/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 被引量:2682