本项目对多层次语言粒度下的文本情感分类进行了系统研究,主要研究结果如下(1)建立了面向中文情感分类的情感词表、搭配库、句子库和文本语料库资源。(2)通过词间的语义关系,提出了词汇、搭配的情感倾向识别,量化了情感倾向强度,并将这些研究成果用于句子的情感倾向判别中。(3)从特征的类别区分能力角度,设计了基于Fisher判别准则函数,提出了一种高效的文本情感分类特征选择方法。(4)利用特征倾向强度,建立了基于二元组属性的文本表示模型。提出了基于情感倾向强度序的属性离散化方法,将特征选择寓于离散化过程,达到了数据降维的目的。利用特征倾向强度,定义了赋权粗糙隶属度,用于新文本的情感分类。(5)将概念格和粒度计算引入到本体研究中,为本体的构建、合并和连接提供了一种统一的基于领域本体基的不同粒度下的知识获取模型,为专家判定概念间和本体之间的关系提供了一定依据。(6)通过粗糙隶属函数定义了两个概念之间的距离,设计了不同滑动窗口下聚类结果演化趋势的可视化算法。(7)将上述理论成果应用于汽车和旅游领域,不仅丰富了文本情感分类的理论成果,同时对主观性文本数据处理提供了新方法与新技术。
英文主题词text sentiment classification; multi-hierarchy linguistic granularity; rough set theory; feature selection; ontology