位置:成果数据库 > 期刊 > 期刊详情页
基于卡方统计的情感文本分类
  • ISSN号:1000-7180
  • 期刊名称:《微电子学与计算机》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:安徽大学计算机科学与技术学院,安徽合肥230601
  • 相关基金:国家自然科学基金项目(61202227)
中文摘要:

通过对情感文本与n-gram特征的研究与分析,提出了一种基于卡方统计的特征词提取方法.方法中,n-gram特征作为文本特征,在传统卡方统计的基础上选取共现或单独出现的特征,因为共现与单独出现的特征在不同类别中可能存在区别性.然后,根据多元特征与类别的相关性判别去除n-gram中冗余的特征,从而选取高类别相关而低冗余的n-gram特征.对上述方法利用SVM算法在不同语料中进行测试,通过实验对比分析,验证了该方法的有效性.

英文摘要:

Because of the short sentiment text length, the lack of information, and the sparseness of features. When use the n-gram approach, the redundancy and relevance between words are ignored. This paper proposes n-gram features selection method based on Chi-square statistics. Firstly, each feature is evaluated by taking into account the simultaneous or individual occurrence of features within the feature set. Based on the idea that the occurrence of one feature but not the other may also convey valuable information for discrimination. Then the redundancy between words is reduced by chi-square statistic algorithm calculate the relevance between features and categories. So that we can extract n-gram features of high categories relevance and low redundancy. Finally, using Support Vector Machine classifier to identify the text orientation in different corpus, the experimental results show that this method improves the accuracy of text classification.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《微电子学与计算机》
  • 中国科技核心期刊
  • 主管单位:中国航天科技集团公司
  • 主办单位:中国航天科技集团公司第九研究院第七七一研究所
  • 主编:李新龙
  • 地址:西安市雁塔区太白南路198号
  • 邮编:710065
  • 邮箱:mc771@163.com
  • 电话:029-82262687
  • 国际标准刊号:ISSN:1000-7180
  • 国内统一刊号:ISSN:61-1123/TN
  • 邮发代号:52-16
  • 获奖情况:
  • 航天优秀期刊,陕西省优秀期刊一等奖
  • 国内外数据库收录:
  • 荷兰文摘与引文数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:17909