位置:成果数据库 > 期刊 > 期刊详情页
不平衡情感分类中的特征选择方法研究
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:2013.12.12
  • 页码:113-118
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]苏州大学计算机科学与技术学院,江苏苏州215006
  • 相关基金:国家自然科学基金资助项目(61070123,61003155); 中科院自动化所模式识别国家重点实验室开放课题资助项目
  • 相关项目:多文档事件信息融合方法的研究
中文摘要:

随着网络的发展,情感分类任务受到广大研究人员的密切关注。针对情感分类中的不平衡数据分布和高维特征问题,该文比较研究了四种经典的特征选择方法在不平衡情感分类中的应用。同时,该文提出了三种不同的特征选择模式并实验比较了这三种模式在分类和降维性能方面的表现。实验结果表明在不平衡数据的情感分类任务中,特征选择方法能够在不损失分类效果的前提下显著降低特征向量的维度。此外,特征选择方法中信息增益(IG)结合"先随机欠采样后特征选择"模式能够取得最佳的分类效果。

英文摘要:

With the rapid development of Internet, the task of sentiment classification has attracted a great attention by many researchers in the area of natural language processing. In this paper, we focus on the sentiment classifica- tion tasks where the data distribution is imbalanced (named imbalanced sentiment classification). To reduce the high-dimensional feature space in imbalanced sentiment classification, we investigate four classic feature selection (FS) methods that are popularly studied in traditional text categorization. Furthermore, three different feature se- lection modes are proposed and compared in the specific task. The experimental results demonstrate that using the feature selection methods is capable of significantly reducing the dimension of the feature vector without any loss in the classification performance. Besides, the results show that the FS method of information gain (IG) combined with the mode "Feature selction after random under-sampling" performs best.

同期刊论文项目
期刊论文 26 会议论文 9 专利 2
期刊论文 26 会议论文 13 专利 6
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136