Web文本意见挖掘关键技术研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

Web文本意见挖掘关键技术研究

项目名称：Web文本意见挖掘关键技术研究
项目类别：专项基金项目
批准号：61250010
申请代码：F020511
项目来源：国家自然科学基金
研究期限：2013-01-01-2013-12-31

项目负责人：牛振东
负责人职称：教授
依托单位：北京理工大学
批准年度：2012

中文摘要：

Web文本意见挖掘通过自动的方法对博克、微博、在线评论等新媒体文本信息进行挖掘和分析。随Web 2.0快速发展,它是智能信息处理、数据挖掘、计算语言学等领域的一个研究热点。本项目主要研究情感词典构建、细粒度意见挖掘方法和意见检索模型等关键技术。针对情感词典构造的整体准确率和基准词依赖性问题，研究基于图的耦合半监督情感词典及领域词典构造方法。针对向量模型在细粒度意见挖掘存在特征稀疏，无法表示结构特征的问题，提出基于树核的细粒度意见挖掘方法，并针对意见两阶段任务设计多种树核空间,将树核与多项式核进行组合。针对文本意见检索，研究文本检索结果和情感分类结果的融合方法，研究新的主题意见混合模型，该方法解决了传统两阶段处理所带来的检索结果和情感分类结果的融合问题，更具理论基础。此外，项目将设计实现一个原型检索系统，并通过TREC所提供的公开数据验证其有效性。

中文主题词：主题意见混合模型；情感词典；意见检索；约束标签传播；推荐

英文摘要：

topic-opinion mixture model；sentiment lexicon；opinion retrieval；constrained label propagation；recommendation

英文主题词： topic-opinion mixture model；sentiment lexicon；opinion retrieval；constrained label propagation；recommendation

结论摘要：

Web 文本意见挖掘通过自动的方法对博客、微博、在线评论等新媒体文本信息进行挖掘和分析。随Web 2.0 快速发展,它是智能信息处理、数据挖掘、计算语言学等领域的一个研究热点。本项目主要研究Web文本意见挖掘中情感词典构建和意见检索模型等关键技术,围绕课题的任务和目标，本课题的主要成果包括(1)采用混合语言模型理论，提出基于主题意见混合模型的意见检索方法。该模型假设主题模型与意见模型具有一定的关联性，即每个主题都有特定的意见模型，不同主题具有不同的意见模型。基于主题意见混合模型的意见检索方法，能更好的解决传统信息检索技术和情感分类技术的融合问题。我们的方法不需要任何标记数据。(2)针对情感词典构建存在的算法领域自适应性、种子词依赖性和准确率不高问题，提出了一种基于约束标签传播的领域情感词典自动构建方法。该方法针对情感词的领域性，利用组块依存树和先验通用情感词典抽取领域候选情感词和短语，通过分析领域评论文本中存在的局部上下文情感的一致性和转折性，以及情感词之间的词法关系，定义和抽取情感词之间的上下文和词法情感倾向约束关系，能够增强情感词之间领域依赖的情感关联相似度。采用约束传播算法能够有效地将局部约束关系传播到全局情感词空间，从而解决了局部约束关系的稀疏性问题；最后使用半监督的标签传播算法，在融合先验约束知识的同时，计算候选词的情感倾向性，构建领域情感词典。(3)开展了检索推荐模型等相关研究并设计实现一个文本意见检索原型系统，通过实验验证了相关方法的有效性。针对上述研究,课题组已公开发表SCI检索论文2篇，EI国际会议论文8篇,软件系统1套；另外，录用SCI论文1篇，会议论文3篇，申请专1个，并有2篇论文待投，培养研究生多名,完成了项目目标,并为后续研究提供了较好的基础。

成果综合统计