情感计算旨在赋予计算机观察、理解和生成各种情感的能力,情感表达方式主要是文字、语音以及多模态数据。目前文本情感计算局限于褒贬二义的倾向性分析,方法以统计学习为主,缺乏情感语义资源的支撑和认知语言学的指导。本课题的研究目的旨在以多情感的语义资源为基础,以认知语言学为指导,进行文本的情感识别和情感迁移的研究。研究内容是以情感词汇本体、情感语料库以及情感常识库为基础,以情感主体为主线,建立不同粒度的情感识别模型。在词汇层,从情感分类、强度和极性三个维度描述词汇的情感信息;在语句层,着重完成情感词汇的语义消歧、情感搭配的识别以及情感主体的识别,确定语句情感类别,构建相应的情感链;在篇章层,结合认知-评价理论,建立基于情感图式的篇章情感分析模型,构造一个可视化的文本情感计算平台,并将其应用在意见挖掘、产品评论和舆情监控等方面。
Sentimental Analysis;Opinion Mining;Sentimental Word Ontology;Sentimental Corpus;Sentimental Transfer
基于文本的情感计算旨在采集、抽取和理解文本所蕴含的丰富的情感,得到了学术界和企业界的极大地关注。本课题研究目的在于在情感语义资源基础上进行中文文本情感分析。 主要研究路线 (1)资源层以认知语言学为基础,定义了7大类情感(乐、好、怒、哀、惧、恶、惊),包含21种小类情感,词条内容包括词汇名称、情感类别、情感强度、情感极性等,构建了《情感词汇本体》。大规模情感语料库对于建立完善的训练模型是十分必要的。我们采用了Text Encoding Initiative标注集,针对情感分析的特殊性,设计了标注工具,制定了标注规范,建立了质量监控机制。语料来源有教材、博客、微博等;还有剧本、期刊以及一些翻译作品。 (2)平台层在词汇层,有些词汇本身的情感倾向不是很明显,但是和某些词汇搭配后产生明显的情感倾向。为此,我们提出了基于关联规则的语境歧义词识别方法,识别搭配在不同上下文环境下的情感属性。在句子层,提出了基于多句联合评估的句子情感分析方法,充分考虑到句子之间的情感迁移概率,采取平滑方式,修正句子之间的情感类别和强度。在篇章层,提出了基于情感图示的篇章情感分析模型。图式来自认知语言学,是常识性的知识表示框架,即“认知语境”。对于每种情感建立了对应的情感图示,刻画情感诱因和应对的策略。 (3)应用层利用情感语义资源,我们开展了多种多样的情感计算应用,包括微博情感分析、基于观点挖掘的销量预测、个性化音乐推荐、产品评价、社会化标注、中西方思维模式对于情感影响等。 主要研究成果 (1)构建了多情感的情感词汇本体,规模为27934词条,已经免费分发,自2012年12月1日在线免费发放,下载量达到640次。 (2)构建了中文情感语料库,规模为52959篇,4786740字,采取众包的方式加以完善,2013年1月将上线,供研究者免费使用。 (3)研发了中文文本情感分析平台,为基于情感分析的应用提供基础服务。 (4)发表论文34篇,录用4篇,包括SIGIR2011,CIKM2011,JASIST等国际著名学术会议和期刊等。 (5)参加了2011年美国TREC和2010-2012年的国内COAE评测取得了较好的成绩。 (6)培养了2名博士,8名硕士毕业生。 取得了申请书所提出的预期成果。