位置:成果数据库 > 期刊 > 期刊详情页
基于集成学习的半监督情感分类方法研究
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:2013.5.5
  • 页码:120-126
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]苏州大学计算机科学与技术学院,江苏苏州215006
  • 相关基金:基金项目:国家自然科学基金资助项目(90920004,61070123,61003153,60970056);模式识别国家重点实验室开放课题基金资助项目;国家863计划资助项目(2012AAO11102)
  • 相关项目:半监督文本情感分类方法研究
中文摘要:

情感分类旨在对文本所表达的情感色彩类别进行分类的任务。该文研究基于半监督学习的情感分类方法,即在很少规模的标注样本的基础上,借助非标注样本提高情感分类性能。为了提高半监督学习能力,该文提出了一种基于一致性标签的集成方法,用于融合两种主流的半监督情感分类方法:基于随机特征子空间的协同训练方法和标签传播方法。首先,使用这两种半监督学习方法韧1练出的分类器对未标注样本进行标注;其次,选取出标注一致的未标注样本;最后,使用这些挑选出的样本更新训练模型。实验结果表明,该方法能够有效降低对未标注样本的误标注率,从而获得比任一种半监督学习方法更好的分类效果。

英文摘要:

Sentiment classification aims to predict the sentimental orientation expressed in the text. In this paper, we investigate the semi-supervised approaches for sentiment classification in a ensemble learning framework where a abound of unlabeled data is leveraged to enhance the classification performance together with a small amount of la- beled data. To improve the performance of the semi-supervised learning approach, we propose a novel ensemble method based on label consistency. Specifically, we combine two popular semi-supervised methods: co-training with random feature subspaces and label propagation to generate the pseudo labeled data for updating the initial labeled data. First, the unlabeled data are labeled by the two semi-supervised learning approaches separately. Then, the un- labeled samples with the consistent labels are considered as pseudo labeled data. Finally, the labeled data is updated with the pseudo labeled data. Experimental study shows that our approach is capable of effectively reducing the error of the pseudo labeled data and thus achieves much better performances than some other approaches for semi-super- vised sentiment classification.

同期刊论文项目
期刊论文 26 会议论文 13 专利 6
期刊论文 26 会议论文 9 专利 2
期刊论文 25 会议论文 13 专利 1
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136