文本情感分类是自然语言理解的一个研究热点,具有着广泛的研究价值和应用前景。本项目将在前期研究的基础上,重点研究困扰目前文本情感分类研究的两个关键问题一是如何减少对大规模人工标注语料的依赖;二是如何解决文本情感分类中特征空间的高维度问题。主要研究内容包括1)在语言学理论的指导下,研究文本的多视图表示,进而实现基于多视图的半监督文本情感分类方法,在少量人工标注语料的基础上,利用大规模非标注语料提高系统性能;2)探索基于多视图的主动学习文本情感分类方法,在不影响性能的情况下,显著降低人工标注语料的规模。同时,将该主动学习方法与基于多视图半监督学习方法结合,在尽可能使用少的标注语料的情况下,利用大规模非标语料进一步提高系统性能;3)研究文本情感分类的特征提取方法,重点研究在半监督学习机制下的特征提取方法,在不影响系统性能的情况下,大幅度降低文本特征空间的维度。
Sentiment Classification;Semi-supervised Learning;Active Learning;Feature Subspaces;Cross-domain Sentiment Classif
本课题旨研究文本情感分类中的半监督学习方法,重点研究基于多视图的半监督情感分类方法,并提出主动学习方法进一步减少情感分类对标注样本的依赖,为情感分类的进一步研究打下了扎实的基础。三年来,课题总体进展顺利,所有研究计划已按照要求完成,达到预期目标。特别是(1)在多视图的半监督情感分类方法方面,提出了基于动态特征子空间的视图划分方式,成功应用于不平衡情感文本分类问题中;(2)在主动学习的情感分类方法方面,同时利用两个子空间进行确定性和不确定性计算,有效减低了情感分类对标注样本的依赖;(3)将主动学习方法应用到跨领域情感分类问题中,提出了基于QBC策略的主动学习方法,有效提高情感分类的领域适应性能。三年来,发表SCI索引源期刊论文1篇,国际重要会议AAAI/IJCAI/CIKM/ACL/EMNLP/COLING论文9篇;获得专利授权2件。