位置:成果数据库 > 期刊 > 期刊详情页
基于层次划分的密度优化聚类算法
  • ISSN号:1001-9081
  • 期刊名称:《计算机应用》
  • 时间:0
  • 分类:TP301.63[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]山东师范大学信息科学与工程学院,济南250014, [2]山东省分布式计算机软件新技术重点实验室,济南250014
  • 相关基金:国家自然科学基金资助项目(61572301,90612003); 山东省自然科学基金资助项目(ZR2013FM008)
中文摘要:

针对传统的聚类算法对数据集反复聚类,且在大型数据集上计算效率欠佳的问题,提出一种基于层次划分的最佳聚类数和初始聚类中心确定算法——基于层次划分密度的聚类优化(CODHD)。该算法基于层次划分,对计算过程进行研究,不需要对数据集进行反复聚类。首先,扫描数据集获得所有聚类特征的统计值;其次,自底向上地生成不同层次的数据划分,计算每个划分数据点的密度,将最大密度点定为中心点,计算中心点距离更高密度点的最小距离,以中心点密度与最小距离乘积之和的平均值为有效性指标,增量地构建一条关于不同层次划分的聚类质量曲线;最后,根据曲线的极值点对应的划分估计最佳聚类数和初始聚类中心。实验结果表明,所提CODHD算法与预处理阶段的聚类优化(COPS)算法相比,聚类准确度提高了30%,聚类算法效率至少提高14.24%。所提算法具有较强的可行性和实用性。

英文摘要:

The traditional clustering algorithms cluster the dataset repeatedly,and have poor computational efficiency on large datasets. In order to solve the problem,a novel algorithm based on hierarchy partition was proposed to determine the optimal number of clusters and initial centers of clusters,named Clusters Optimization based on Density of Hierarchical Division( CODHD). Based on hierarchical division,the computational process was studied,which did not need to cluster datasets repeatedly. First of all,all statistical values of clustering features were obtained by scanning dataset. Secondly,the data partitions of different level were generated from bottom-to-up,the density of each partition data point was calculated,and the maximum density point of each partition was taken as the initial center. At the same time,the minimum distance from the center to the higher density data point was calculated,the average of products' sum of the density of the center and the minimum distance was taken as the validity index and a clustering quality curve of different hierarchical division was built incrementally. Finally,the optimal number of clusters and the initial center of clusters were estimated corresponding to the partition of extreme points of curve. The experimental results demonstrate that,compared with Clusters Optimization on Preprocessing Stage( COPS),the proposed CODHD improved clustering accuracy by 30% and clustering algorithm efficiency at least 14. 24%. The proposed algorithm has strong feasibility and practicability.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用》
  • 北大核心期刊(2011版)
  • 主管单位:四川省科学技术协会
  • 主办单位:四川省计算机学会中国科学院成都分院
  • 主编:张景中
  • 地址:成都市人民南路四段九号科分院计算所
  • 邮编:610041
  • 邮箱:xzh@joca.cn
  • 电话:028-85224283
  • 国际标准刊号:ISSN:1001-9081
  • 国内统一刊号:ISSN:51-1307/TP
  • 邮发代号:62-110
  • 获奖情况:
  • 全国优秀科技期刊一等奖,国家期刊奖提名奖,中国期刊方阵双奖期刊,中文核心期刊,中国科技核心期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:53679