基于认知语境的文本情感计算及其应用-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

基于认知语境的文本情感计算及其应用

项目名称：基于认知语境的文本情感计算及其应用
项目类别：面上项目
批准号：60973068
申请代码：F020601
项目来源：国家自然科学基金
研究期限：2010-01-01-2012-12-31

项目负责人：林鸿飞
负责人职称：教授
依托单位：大连理工大学
批准年度：2009

中文摘要：

情感计算旨在赋予计算机观察、理解和生成各种情感的能力，情感表达方式主要是文字、语音以及多模态数据。目前文本情感计算局限于褒贬二义的倾向性分析，方法以统计学习为主，缺乏情感语义资源的支撑和认知语言学的指导。本课题的研究目的旨在以多情感的语义资源为基础，以认知语言学为指导，进行文本的情感识别和情感迁移的研究。研究内容是以情感词汇本体、情感语料库以及情感常识库为基础，以情感主体为主线，建立不同粒度的情感识别模型。在词汇层，从情感分类、强度和极性三个维度描述词汇的情感信息；在语句层，着重完成情感词汇的语义消歧、情感搭配的识别以及情感主体的识别，确定语句情感类别，构建相应的情感链；在篇章层，结合认知－评价理论，建立基于情感图式的篇章情感分析模型，构造一个可视化的文本情感计算平台，并将其应用在意见挖掘、产品评论和舆情监控等方面。

中文主题词：情感分析；意见挖掘；情感词汇本体；情感语料库；情感迁移

英文摘要：

Sentimental Analysis；Opinion Mining；Sentimental Word Ontology；Sentimental Corpus；Sentimental Transfer

英文主题词： Sentimental Analysis；Opinion Mining；Sentimental Word Ontology；Sentimental Corpus；Sentimental Transfer

结论摘要：

基于文本的情感计算旨在采集、抽取和理解文本所蕴含的丰富的情感，得到了学术界和企业界的极大地关注。本课题研究目的在于在情感语义资源基础上进行中文文本情感分析。主要研究路线（1）资源层以认知语言学为基础，定义了7大类情感（乐、好、怒、哀、惧、恶、惊），包含21种小类情感，词条内容包括词汇名称、情感类别、情感强度、情感极性等，构建了《情感词汇本体》。大规模情感语料库对于建立完善的训练模型是十分必要的。我们采用了Text Encoding Initiative标注集，针对情感分析的特殊性，设计了标注工具，制定了标注规范，建立了质量监控机制。语料来源有教材、博客、微博等；还有剧本、期刊以及一些翻译作品。（2）平台层在词汇层，有些词汇本身的情感倾向不是很明显，但是和某些词汇搭配后产生明显的情感倾向。为此，我们提出了基于关联规则的语境歧义词识别方法，识别搭配在不同上下文环境下的情感属性。在句子层，提出了基于多句联合评估的句子情感分析方法，充分考虑到句子之间的情感迁移概率，采取平滑方式，修正句子之间的情感类别和强度。在篇章层，提出了基于情感图示的篇章情感分析模型。图式来自认知语言学，是常识性的知识表示框架，即“认知语境”。对于每种情感建立了对应的情感图示，刻画情感诱因和应对的策略。（3）应用层利用情感语义资源，我们开展了多种多样的情感计算应用，包括微博情感分析、基于观点挖掘的销量预测、个性化音乐推荐、产品评价、社会化标注、中西方思维模式对于情感影响等。主要研究成果（1）构建了多情感的情感词汇本体，规模为27934词条，已经免费分发，自2012年12月1日在线免费发放，下载量达到640次。（2）构建了中文情感语料库，规模为52959篇，4786740字，采取众包的方式加以完善，2013年1月将上线，供研究者免费使用。（3）研发了中文文本情感分析平台，为基于情感分析的应用提供基础服务。（4）发表论文34篇，录用4篇，包括SIGIR2011，CIKM2011，JASIST等国际著名学术会议和期刊等。（5）参加了2011年美国TREC和2010-2012年的国内COAE评测取得了较好的成绩。（6）培养了2名博士，8名硕士毕业生。取得了申请书所提出的预期成果。

成果综合统计