位置:成果数据库 > 期刊 > 期刊详情页
面向文本分类的基于最小冗余原则的特征选取
  • ISSN号:1003-0077
  • 期刊名称:《中文信息学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]东北大学信息学院计算机软件与理论研究所,辽宁沈阳110004
  • 相关基金:国家自然科学基金资助项目(60473140);国家863高科技计划课题资助(2006AA012154);国家教育部新世纪优秀人才计划项目资助(NCET-05-0287);国家985工程计划项目资助(985-2-DB-C03)
中文摘要:

在文本分类中,为了降低计算复杂度,常用的特征选取方法(如IG)都假设特征之间条件独立。该假设将引入严重的特征冗余现象。为了降低特征子集的冗余度,本文提出了一种基于最小冗余原则(minimal Redundancy Principle,MRP)的特征选取方法。通过考虑不同特征之间的相关性,选择较小冗余度的特征子集。实验结果显示基于最小冗余原则方法能够改善特征选取的效果,提高文本分类的性能。

英文摘要:

In text classification tasks, these well-known feature selection methods such as information gain adopt conditional independence assumption between various features. However, this assumption would result in serious redundancy problems among various selected features. To alleviate the redundancy problem within the selected feature subset, this paper proposed a method based on minimal redundancy principle (MRP) for feature selection, in which correlations between different features are considered in feature selection process , and a feature subset with less redundancy can be built. Experimental results showed that MRP method can improve the effectiveness of feature selection, and results in better text classification performance (in most cases).

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136