位置:成果数据库 > 期刊 > 期刊详情页
一种改进的基于广义后缀树的文本聚类算法
  • ISSN号:1002-0411
  • 期刊名称:《信息与控制》
  • 时间:0
  • 分类:TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]河北工业大学信息工程学院,天津300401
  • 相关基金:国家自然科学基金资助项目(60673087,60377020).
中文摘要:

分析了基本STC算法存在的三个缺点,即不能有效处理包含文本数目差距较大但具有包含关系的节点,不能有效处理包含文本相似但主题不同的节点,缺乏有效的类别标识提取算法.针对以上问题,在综合考虑主题相似性以及文本包含相似性的基础上,给出了改进的用于基类合并的相似度公式,并提出了基于信息增益的类别标识提取算法.为了进一步提高聚类效率,给出了一种简单有效的用于基类选择的测度,用来排除一些无意义的广义后缀树节点.实验结果表明,所提算法不仅可以有效提高STC算法的聚类准确度,而且可以对聚类结果进行有效的类别标识.

英文摘要:

The original suffix tree clustering (STC) algorithm can not effectively process the nodes with text documents that differ greatly in quantity but hold a relation of inclusion, neither the nodes that are similar in text but different in topic, and it lacks an effective algorithm for class label extraction. To solve these problems, an improved similarity formula is presented for base cluster merging based on both the similarity of topic and the included texts, and a class label extraction algorithm based on information gain is proposed. To improve the clustering efficiency, a simple but reasonable measure for base cluster selection is presented to exclude some generalized suffix tree nodes which contribute less tO the clustering. Experiment is made and the results prove that the presented clustering algorithm can efficiently increase the precision of text clustering and perform effective labeling for the clustering result.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《信息与控制》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国自动化学会 中国科学院沈阳自动化研究所
  • 主编:王天然
  • 地址:沈阳市南塔街114号
  • 邮编:110016
  • 邮箱:xk@sia.cn
  • 电话:024-23970049
  • 国际标准刊号:ISSN:1002-0411
  • 国内统一刊号:ISSN:21-1138/TP
  • 邮发代号:
  • 获奖情况:
  • 全国优秀期刊三等奖,中科院优秀期刊三等奖,辽宁省优秀期刊一等奖
  • 国内外数据库收录:
  • 美国数学评论(网络版),荷兰文摘与引文数据库,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:12960