面对大规模富含情感信息的Web情感资源,倾向性分析系统已经成为互联网上辅助广大用户自动挖掘和分析情感信息的一种重要手段,其核心的倾向性分析技术也成为了工业界和学术界广泛关注的研究问题。大部分倾向性分析技术所研究的对象是单一文档或者更小粒度单元,然而随着情感数据规模不断增大、用户关注点和主题日益相关,传统的倾向性分析技术面临着很大的挑战,包括面向主题的倾向性检索、领域通用的多文档倾向性分析、不同主题间跨领域倾向性分析等问题。针对上述挑战,本课题拟以大规模Web情感数据为基本资源,以面向主题的倾向性分析为基本应用场景,研究主题情感混合模型、基于词典的倾向性分析模型以及基于环境感知的跨领域倾向性分析模型来解决上述三方面问题。本课题的研究,能够帮助解决利用大规模情感资源进行倾向性分析所面临的基本问题,进一步完善倾向性分析技术,推动倾向性分析系统在舆情分析中更为广泛有效的使用。
Opinion Analysis;Sentiment Classification;Opinion Retrieval;Cross Domain;
本课题以大规模Web情感数据为基本资源,以面向主题的倾向性分析为基本应用场景,从如下三个方面展开具体的研究工作(1)面向主题的倾向性检索模型从面向主题情感词典抽取、主题依赖情感知识学习、面向主题的的抽取式观点摘要三方面展开研究,解决从特定主题的多篇情感文档中得到情感信息这一问题;(2)领域通用的多文档倾向性分析模型从多领域情感词典抽取、情感关键句抽取、基于最少资源进行领域通用倾向性分析三个角度展开研究,提高领域通用的倾向性分析质量;(3)基于环境感知的跨领域倾向性分析模型与算法从感知目标领域固有结构、建立目标领域情感词典两方面展开研究,解决了不同主题标注数据分布不平均的问题,促进倾向性分析的准确率。围绕上述研究内容,本课题共计发表(或已被接受)文章22篇,包括期刊文章10篇,会议文章12篇。培养博士生3名,硕士生5名,申报软著1项。多项突破和阶段性成果超过了项目预期目标。