位置:成果数据库 > 期刊 > 期刊详情页
使用“分裂-合并”策略改进文本聚类集成算法的研究
  • ISSN号:1002-0470
  • 期刊名称:《高技术通讯》
  • 时间:0
  • 分类:TP391.41[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]哈尔滨工程大学模式识别与自然计算研究室,哈尔滨150001, [2]盐城工学院计算机工程系,盐城224051, [3]哈尔滨工业大学智能技术与自然语言处理实验室,哈尔滨150001
  • 相关基金:863计划(2007AA012172),国家自然科学基金(60975042,60603092)和高等学校博士学科点专项科研基金(20070217043)资助项目.
中文摘要:

探讨了“分裂-合并”(DM)策略对文本聚类集成算法改进的效果。首先在聚类成员生成阶段运行使用DM策略的超球K均值(SKM)算法r次,每次生成较多的文本子簇,并根据子簇的相似性使用凝聚层次聚类方法合并这些子簇,得到r个聚类成员,随后在聚类集成阶段采用两个快速的谱聚类算法进行集成。在6组真实文本集上进行了实验,使用DM策略的两个聚类集成算法获得的平均标准化互信息(NMI)分别比改进前的算法提高了4.6和7.9个百分点,证明了DM策略可以有效提高文本聚类集成算法的聚类质量。

英文摘要:

The influence of the divide and merge (DM) strategy on document cluster ensemble algorithms was explored. Firstly, the spherical K-means (SKM) algorithm utilizing the DM strategy was performed for r times in the ensemble member generation phase, and each time more document sub-clusters were obtained and the agglomerative hierarchical method was used to merge these sub-clusters according to their similarity to attain r ensemble members. Then, two fast spectral clustering algorithms were performed to ensemble the r clusterings. The experiments on six real-world document sets showed that the DM strategy increased the normalized mutual information (NMI) of the two cluster ensemble algorithms by 4.6 and 7.9 percentage in average, respectively. These results prove that DM strategy can effectively improve the performance of document cluster ensemble algorithms.

同期刊论文项目
期刊论文 44 会议论文 12
期刊论文 31 会议论文 15 专利 1
同项目期刊论文
期刊信息
  • 《高技术通讯》
  • 北大核心期刊(2011版)
  • 主管单位:中华人民共和国科学科技部
  • 主办单位:中国科学技术信息研究所
  • 主编:赵志耘
  • 地址:北京市三里河路54号
  • 邮编:100045
  • 邮箱:hitech@istic.ac.cn
  • 电话:010-68514060 68598272
  • 国际标准刊号:ISSN:1002-0470
  • 国内统一刊号:ISSN:11-2770/N
  • 邮发代号:82-516
  • 获奖情况:
  • 《中国科学引文数据》刊源,《中国科技论文统计与分析》刊源
  • 国内外数据库收录:
  • 美国化学文摘(网络版),荷兰文摘与引文数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),英国英国皇家化学学会文摘
  • 被引量:12178