位置:成果数据库 > 期刊 > 期刊详情页
结合语义改进的K-means短文本聚类算法
  • ISSN号:1002-8331
  • 期刊名称:《计算机工程与应用》
  • 时间:0
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]辽宁工程技术大学软件学院,辽宁葫芦岛125105
  • 相关基金:国家自然科学基金(No.71371091);辽宁省高等学校杰出青年学者成长计划(No.LJQ2012027);辽宁省教育厅一般项目(No.L2013131).
中文摘要:

针对短文本聚类存在的三个主要挑战,特征关键词的稀疏性、高维空间处理的复杂性和簇的可理解性,提出了一种结合语义改进的K-means短文本聚类算法。该算法通过词语集合表示短文本,缓解了短文本特征关键词的稀疏性问题;通过挖掘短文本集的最大频繁词集获取初始聚类中心,有效克服了K-means聚类算法对初始聚类中心敏感的缺点,解决了簇的理解性问题;通过结合TF-IDF值的语义相似度计算文档之间的相似度,避免了高维空间的运算。实验结果表明,从语义角度出发实现的短文本聚类算法优于传统的短文本聚类算法。

英文摘要:

Nowadays, there are three major challenges for short text clustering, the sparsity of feature key, the complexityof processing in high-dimensional space and the comprehensibility of clusters. For these challenges, a K-means clusteringalgorithm is proposed, which is improved by combining with semantic. Short text is described by collection of words inthis algorithm, it alleviates the sparsity problem of characteristics of short text keywords. The clustering center can beobtained by mining the maximum frequent word set of short text collection, which effectively overcomes the defect thatK-means clustering algorithm is sensitive to the initial clustering center, it solves the problem of the comprehensibility ofclusters, and avoids the operation in high-dimensional space. The experimental results show that short text clustering algorithmcombined with semantic is better than traditional algorithms.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机工程与应用》
  • 北大核心期刊(2014版)
  • 主管单位:中国电子科技集团公司
  • 主办单位:华北计算技术研究所
  • 主编:怀进鹏
  • 地址:北京市海淀区北四环中路211号北京619信箱26分箱
  • 邮编:100083
  • 邮箱:ceaj@vip.163.com
  • 电话:
  • 国际标准刊号:ISSN:1002-8331
  • 国内统一刊号:ISSN:11-2127/TP
  • 邮发代号:82-605
  • 获奖情况:
  • 1. 2012年首批获得中国学术文献评价中心发布的 “...,2. 2001年获得新闻出版署“中国期刊方阵双效期刊”,3. 2008年首批入选国家科技部“中国精品科技期刊...,4.2003年-2011年连续获得工业和信息化部期刊最高...
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:97887