位置:成果数据库 > 期刊 > 期刊详情页
基于独立性理论的文本分类特征选择方法
  • 期刊名称:测绘科学
  • 时间:0
  • 页码:11-13
  • 语言:中文
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国民航大学计算机科学与技术学院,天津300300
  • 相关基金:基金项目:国家自然科学基金资助项目(60776806,60672174);中国民航大学博士启动基金资助项目(06qd08s)
中文摘要:

特征与各个文档类在文本集中的独立程度体现了特征的代表性,文本分类的特征选择过程是选择能够提高分类性能的高代表性特征的过程。基于该原理提出DHChi2和EIBA2种新的文本分类特征选择方法,对这2种方法进行合理的组合。实验结果表明,独立性理论应用于文本分类特征选择有利于提高分类性能。

英文摘要:

The degree of independence between a feature and each document category reflects the representation of the feature in the text set, while the procedure of selecting features is just a procedure in which the high representative subset of features are selected in text category. This paper proposes two approaches of feature selection based on the principle DHChi2 and ELBA, and rationally combines the two approaches. Experimental results show that applying the independence theory to feature selection for text categorization can improve categorization performance.

同期刊论文项目
期刊论文 15 会议论文 5 著作 1
同项目期刊论文