位置:成果数据库 > 期刊 > 期刊详情页
一种基于密度峰值发现的文本聚类算法
  • ISSN号:1671-9352
  • 期刊名称:《山东大学学报:理学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]山东师范大学信息科学与工程学院,山东济南250014, [2]山东交通学院信息科学与电气工程学院,山东济南250357
  • 相关基金:国家自然科学基金资助项目(61373148); 国家社会科学基金资助项目(12BXW040); 山东省自然基金资助项目(ZR2012FM038); 山东省优秀中青年科学家奖励基金资助项目(BS2013DX033); 教育部人文社科基金资助项目(14YJC860042); 山东省社科规划项目(12BXWJ01); 山东省高等学校科技计划项目(J12LN21)
中文摘要:

提出一种基于密度峰值发现的文本聚类算法,将文本的距离与密度计算转化为文本向量的相似度计算,实现基于密度峰值发现的文本聚类算法。该算法采用空间向量模型表示文本,用余弦公式进行相似度计算,然后求得每个文本的密度和距离。剔除噪音点后,选取聚类中心,将剩下的非中心点划分到距离其最近的聚类中心所在的类簇中去。通过多组对比试验,验证了本方法的可靠性和鲁棒性。

英文摘要:

A text clustering algorithm based on find of density peak was proposedin this paper. The algorithm was implemented by the calculation of text distance and density,which was in accordance with calculation of the text vector similarity. VSM( Vector Space Model) was used to express ducument to obtain the similarity calculation with cosine formula. The cucument work was to find the local density and the distance from points of higher density of each ducument,remove the noise points and select the cluster center. The remainednon-centralpoints were assigned into the cluster which was the nearest to the cluster center. According to several sets of contrast experiments,the density-based text clustering was improved to have an advantage of reliability and robustness.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《山东大学学报:理学版》
  • 北大核心期刊(2011版)
  • 主管单位:中华人民共和国教育部
  • 主办单位:山东大学
  • 主编:刘建亚
  • 地址:济南市经十路17923号
  • 邮编:250061
  • 邮箱:xblxb@sdu.edu.cn
  • 电话:0531-88396917
  • 国际标准刊号:ISSN:1671-9352
  • 国内统一刊号:ISSN:37-1389/N
  • 邮发代号:24-222
  • 获奖情况:
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),波兰哥白尼索引,德国数学文摘,中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),英国英国皇家化学学会文摘
  • 被引量:6243