位置:成果数据库 > 期刊 > 期刊详情页
基于 Fisher 判别的分布式 K-Means 聚类算法
  • ISSN号:1671-7775
  • 期刊名称:《江苏大学学报:自然科学版》
  • 时间:0
  • 分类:TP393[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]江苏大学计算机科学与通信工程学院,江苏镇江212013
  • 相关基金:国家科技创新基金资助项目(10C26213200946);江苏省科技创新项目(BC2009265);镇江市工业支撑项目(GY2012007)
作者: 彭长生[1]
中文摘要:

为了解决集中式聚类算法不能处理海量大数据的问题,提出基于Fisher判别确定置信半径的分布式聚类算法.应用网络上各个节点的计算、存储能力,以及网络的带宽,将聚类所需的时间复杂度和空间复杂度平摊到各个节点.通过应用Fisher线性判别找到节点在同一子类数据上的稠密和稀疏分布,从而快速确定聚类的置信半径并指导下一步的聚类过程,使得保持聚类精度的同时能提高分布式聚类的速度.对算法进行了数值模拟,并使用真实数据完成了试验.结果表明,所提出算法相比DFEKM聚类算法,能根据数据分布的不同在聚类结果和聚类速度上达到很好的平衡,这表明该算法具有更好的健壮性.

英文摘要:

To solve the problem that centralized clustering algorithms could not deal with big data sets, a distributed K-Means clustering algorithm was proposed based on the confidence radius by Fisher discriminant ratio in local nodes. The computing and storage capacitates as well as bandwidth of each nodes were used to share the time and space expenses to each nodes in the P2P networks. The Fisher discriminant ratio was applied to find the difference of dense and sparse distributions in the same cluster in local nodes. The ratio was used to deduce the confidence radius for the next clustering processing to maintain clustering accuracy, and the distributed clustering was speeded up at the same time. The numerical simulation of algorithm and experiments were completed based on real data. The results show that a good balance between accuracy and speed is obtained according to the data distributions. The proposed algorithm has better robustness than the DFEKM algorithm.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《江苏大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:江苏省教育厅
  • 主办单位:江苏大学
  • 主编:袁寿其
  • 地址:江苏省镇江梦溪园巷30号
  • 邮编:212003
  • 邮箱:xbbj@ujs.edu.cn
  • 电话:0511-84446612
  • 国际标准刊号:ISSN:1671-7775
  • 国内统一刊号:ISSN:32-1668/N
  • 邮发代号:28-83
  • 获奖情况:
  • 原“机械电子部优秀科技期刊二等奖,江苏省高校学报优秀期刊一等奖,江苏省优秀科技期刊奖,江苏省期刊方阵优秀期刊,华东地区优秀期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),英国农业与生物科学研究中心文摘,波兰哥白尼索引,德国数学文摘,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:8727