位置:成果数据库 > 期刊 > 期刊详情页
基于偏斜数据集的文本分类特征选择方法研究
  • ISSN号:1003-0077
  • 期刊名称:《中文信息学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学院计算技术研究所,北京100190, [2]中国科学院大学,北京100049, [3]中国科学院信息工程研究所,北京100093, [4]北京理工大学软件学院,北京100081
  • 相关基金:国家242信息安全计划项目(2010A007),国家863项目(2011AA01A203),国家自然科学基金(60903047,61272361),中国科学院先导专项项目(XDA06030200)
中文摘要:

对于不同类别样本数量差别很大的偏斜文本数据集,使用传统的特征选择方法所选出的特征绝大多数来自于大类,会使得分类器偏重大类而忽略小类,直接影响分类效果.该文首先针对偏斜文本数据集的数据特点,分析发现偏斜数据集中影响特征选择的两个重要因素,即特征项的类别分布和类间差异,其中类别分布因素反映的是特征项在整个数据集中的类别频率差异;而类别差异因素反映的是特征项在不同类别之间的相对文档频率差异.然后基于这两个重要因素构造形成一个新的尤其适用于偏斜文本分类的特征选择函数 相对类别差异(Rel-ative Category Difference,RCD).与传统的特征选择方法进行对比实验的结果表明,RCD特征选择方法对于偏斜文本分类效果更优.

英文摘要:

The existing for feature selection methods are not appropriate for the skewed corpus in which most of sam- ples belong to a majority class and far fewer samples belong to a minority class. The reason is that these methods se- lect features without considering the relative distribution of each class. As a result, most of selected features using these methods come from the majority class, which tend to misclassify minority class samples. This paper analyzes the characters of the skewed corpus and finds two important factors which can influence feature selection on the skewed data: category distribution and category difference. The category distribution factor indicates category fre- quency difference in whole dataset, and the category difference factor indicates relative documents frequency differ- ence between classes. Then a new feature selection function called Relative Category Difference (RCD) is construc- ted based on the two factors. Experimental results show that the new feature selection method outperforms other methods for the skewed text categorization.

同期刊论文项目
期刊论文 9 会议论文 8 获奖 1 专利 1
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136