位置:成果数据库 > 期刊 > 期刊详情页
基于高斯分布的簇间距离计算方法
  • ISSN号:1003-0077
  • 期刊名称:《中文信息学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]沈阳航空工业学院自然语言处理研究室,辽宁沈阳110034
  • 相关基金:国家863计划课题(2006AA01Z148);教育部科学技术研究重点项目(207148)
中文摘要:

凝聚的层次聚类算法是一种性能优越的聚类算法,该算法通过不断合并距离相近的簇最终将数据集合划分为用户指定的若干个类别。在聚类的过程中簇间距离计算的准确性是影响算法性能的重要因素。本文提出一种新的基于高斯分布的簇间距离的计算方法,该方法通过簇自身的大小、密度分布等因素改进算法的计算准确性,在不同文本集合上与现有的簇问距离计算方法进行了对比实验,实验结果表明该方法有效地改进了层次聚类算法的性能。

英文摘要:

Agglomerate hierarchical clustering algorithm is distinguished for its superior performance in dividing the data set by continually merging similar clusters. The cluster distance computing method is the key issue affecting the performance of hierarchical clustering algorithm. This paper proposes a new method of calculating the clusters distance based on the Gaussian distribution. This method considers the factors in the cluster-itself to improve the calculation veracity, such as the cluster's size and its data distribution. , The experimental results on different text sets prove that the proposed method improves the performance of hierarchical clustering effectively.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136