位置:成果数据库 > 期刊 > 期刊详情页
基于EM算法的文本聚类优化研究
  • ISSN号:1002-0411
  • 期刊名称:《信息与控制》
  • 时间:0
  • 分类:TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]西安交通大学电子与信息工程学院,陕西西安710049
  • 相关基金:国家自然科学基金资助项目(60173058,60673087)
中文摘要:

针对现有的文本聚类算法难以取得满意结果的问题,以EM算法为基础,提出能分别描述相似、不相似聚类对的相似性分布以及重要、不重要文档的重要性分布的文本聚类优化模型(text clustering optimization model,TCOM).基于该模型,设计一种通过合并不同的文本聚类结果以获取最优性能的方法.实验结果表明,利用该方法同时改善了聚类精度和召回率,其性能优于单独使用现有的硬、软聚类算法.

英文摘要:

A model named TCOM (text clustering optimization model ) based on expectation-maximization (EM) algorithm is proposed to solve the problem that the existing text clustering algorithms can not achieve satisfactory results. This model describes the similarity distribution of the similar and non-similar pair of clusters, and presents the importance distribution of the important and unimportant documents. The method based on TCOM optimizes the performance by merging different text clustered results. Experimental results show that clustering precision and recall are both improved, and its performance is higher than that of either hard clustering method or soft clustering method.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《信息与控制》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国自动化学会 中国科学院沈阳自动化研究所
  • 主编:王天然
  • 地址:沈阳市南塔街114号
  • 邮编:110016
  • 邮箱:xk@sia.cn
  • 电话:024-23970049
  • 国际标准刊号:ISSN:1002-0411
  • 国内统一刊号:ISSN:21-1138/TP
  • 邮发代号:
  • 获奖情况:
  • 全国优秀期刊三等奖,中科院优秀期刊三等奖,辽宁省优秀期刊一等奖
  • 国内外数据库收录:
  • 美国数学评论(网络版),荷兰文摘与引文数据库,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:12960