如何有效发掘并以一种自然的方式聚集和融合散落在多个意见文档中的大量的、多样的、冗余的意见信息是目前意见挖掘和意见自动文摘要研究的热点,也是面临的主要挑战。本项目拟以大规模语料库调查为基础,探索不同领域的汉语意见信息表达的内在结构和模式以及意见信息结构表示模型;在情感分类和意见抽取基础上,采用基于语料库的机器学习方法,同时融合语义、句法和修辞等多种语言学特征以及领域情感知识,面向多个领域研究汉语多文档意见聚集和融合方法及关键技术,重点解决意见信息正规化(涵盖跨文档意见实体共指消解和意见复述识别)、基于意见信息结构的意见句子融合和领域情感知识自动获取等关键问题;进而构建一个基于文本-意见信息结构-文本模式的汉语多文档意见自动文摘技术框架及系统。本项目的实施不仅可为意见问答、意见检索和意见跟踪等系统奠定理论和技术基础,而且在政务智能、商业智能和舆情分析等领域具有十分广阔的应用前景。
opinion mining;opinion aggregation;opinion fusion;sentiment classification;noisy text analysis
如何有效发掘并以一种自然的方式聚集和融合散落在多个意见文档中大量的、多样的、冗余的意见信息是目前意见挖掘研究的热点和难点。本项目以解决汉语意见聚集与融合关键问题为目标,对意见文本分析、情感分类、意见抽取与聚集、意见融合等关键技术进行了深入研究,并取得以下研究进展 (1) 噪声短文本分析针对网络意见文本自由、多样和开放的特点,构建了面向意见文本的噪声短文本分析技术,主要包括基于语素的词法分析、基于分类的未登录词词义预测、基于序列标注的标点预测与校对、基于汉字-拼音-汉字转换的错别字校对与谐音正规化等,重点解决意见文本分析面临的未登录词、标点误用、错别字和谐音词等次生成或病态输入问题。 (2) 情感分类针对情感分类面临的情感类别外延界线模糊、特征选择和表示以及数据稀疏等难题,探索情感的模糊集合隶属函数构造方法以及意见复述技术,构建了一个基于模糊结合论的意见句识别框架,提出一种融合复述和模糊特征的基于意见簇的多分类器情感极性分类方法。 (3) 意见信息抽取与聚集针对隐性属性识别问题,提出一种显性属性标注和隐性属性位置结合的基于序列标注的意见要素识别方法;探索意见关系分类体系,提出一种基于SVMs的意见关系识别方法,构建基于意见关系识别的完全意见抽取系统,解决了多意见切割问题;在解释性意见识别基础上,提出一种融合多粒度相似度的基于聚类的意见实体共指消解和评价复述识别方法,进而实现了一种基于意见要素正规化的意见聚集技术。 (4) 意见信息融合针对意见冗余和摘要连贯性等问题,以意见信息为基本单位,同时考虑意见簇自身重要性以及意见-簇相关度,提出一种融合语义相似度的基于MRW的意见排序,构建了基于意见相似度最大间隔的意见选择算法,探索了基于模板的摘要生成技术,进而构建意见文本?意见信息结构?意见文本的意见信息抽取与融合框架。 (5) 意见语料标注与情感知识获取完成了一个涵盖汽车、手机和数码相机产品领域的涵盖基本语言标注、标点校对和意见要素等信息的多级意见标注语料库,构建了汉语情感词典自动扩展和意见复述知识库获取平台。基于上述方法和资源,我们实现了一个涵盖情感分类、意见抽取、聚集与融合等功能的汉语意见挖掘系统,并实验验证了方法的有效性。此外,项目组共发表学术论文20篇,培养硕士研究生11人。本项目研究成果可广泛应用于产品推荐、意见问答和智能客服等相关领域。