位置:成果数据库 > 期刊 > 期刊详情页
基于阻塞先验知识的文本层次分类模型
  • ISSN号:1003-6059
  • 期刊名称:《模式识别与人工智能》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术] TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]同济大学计算机科学与技术系,上海201804, [2]南昌大学信息工程学院,南昌330031
  • 相关基金:国家自然科学基金(No.60475019,60775036,60970061)、教育部博士点专项基金(No.20060247039)资助项目
中文摘要:

文本层次分类中阻塞现象是影响层次分类器性能的重要原因.针对这一问题,提出基于阻塞先验知识的文本层次分类模型.该模型包括两部分:首先对阻塞分布进行估计,提出“阻塞对”识别技术,重点在于获取严重的阻塞方向;其次,把分析出的阻塞先验知识融合到分类过程中,利用层次拓扑结构修正算法,引导阻塞文本“回归”正确分类路径.在中文语料TanCorp上的实验表明,该算法在没有额外增加分类器数目的前提下,能有效改善层次分类性能,是解决层次分类阻塞问题的一种方法.另外,与平面分类算法比较后,该算法更稳定.

英文摘要:

Blocking exerts negative effect on the performance of text hierarchical classification. In this paper, a two-step hierarchical text classification model based on blocking priori knowledge is proposed to address the problem. Firstly, blocking distribution is estimated and blocking pair recognition technique focusing on mining the serious blocking direction is presented. Secondly, the hierarchy topology structure is actively refined which attempts to correct misclassification and reduce blocking errors by using blocking priori knowledge. The experimental results on TanCorp, which is a new corpus special for Chinese.text classification, show that the model can improve the performance significantly without increasing the extra number of classifiers and is a method of solving the hierarchical classification blocking problem. In addition, compared with fiat text classification algorithm, this method has stable performance.

同期刊论文项目
期刊论文 40 会议论文 6 获奖 6 著作 8
期刊论文 84 会议论文 21 获奖 1 著作 2
同项目期刊论文
期刊信息
  • 《模式识别与人工智能》
  • 中国科技核心期刊
  • 主管单位:中国科学技术协会 中国自动化学会
  • 主办单位:国家智能计算机研究开发中心 中国科学院合肥智能机械研究所
  • 主编:郑南宁
  • 地址:安徽省合肥市蜀山湖路350号中国科学院合肥智能机械研究所
  • 邮编:230031
  • 邮箱:bjb@iim.cas.cn
  • 电话:0551-5591176
  • 国际标准刊号:ISSN:1003-6059
  • 国内统一刊号:ISSN:34-1089/TP
  • 邮发代号:26-69
  • 获奖情况:
  • 国内外数据库收录:
  • 被引量:10169