从网络评论中挖掘意见信息是当前网络信息处理研究领域的热点问题之一。领域适应性和性能稳定性是目前意见挖掘系统在处理大规模开放网络文本时所面临的两个主要问题。针对这些问题,结合中文网络评论的特点,本项目拟以自然语言处理技术为基础,融合多种语言学知识,在机器学习框架下研究自适应的中文网络意见挖掘关键技术。主要研究内容包括研究面向网络评论文本的中文处理技术,重点解决网络文本存在的次生成问题;研究中文情感知识获取和意见语料构造方法,重点研究领域和上下文相关的动态情感知识自动获取方法,以提高系统的自适应能力;研究模式匹配和情感密度相结合的主观性识别算法;在机器学习框架下研究融合多个特征和情感知识的意见抽取和极性分类方法,重点研究特征选择和优化算法,以提高系统的性能稳定性。本项目的实施对自然语言处理、信息检索、文本挖掘、自动文摘、问答系统和智能信息服务等研究领域具有重要的科学意义和应用前景。
opinion mining;sentiment classification;opinion text analysis;opinion corpus annotation;machine learning
随着互联网的迅猛发展,特别是Web2.0的兴起,意见挖掘已经成为自然语言处理领域的一个研究热点。本项目以解决汉语网络意见挖掘中的部分关键问题、提高汉语情感分析性能为目标,对意见文本分析、主观性识别、情感极性分类和意见要素标注等关键问题进行了深入研究和探索,并取得以下研究进展 (1) 针对网络意见文本自由、多样和开放的特点,引入语素概念,在机器学习框架下构建了面向网络意见文本的语言分析技术,包括基于语素的词法分析、基于双层条件随机域模型的嵌套命名实体识别、基于序列标注的意见文本标点校对等,重点解决网络文本分析中存在的未登录词识别与预测等次生成问题以及标点误用等病态输入问题。 (2) 针对主观性识别所面临的主观性特征选择及其表示等难题,构建了汉语句子情感密度计算模型,提出一种基于情感密度子区间的汉语主观性识别方法;引入模糊集合表示词语的主观性强度,提出一种基于模糊集合论的汉语词语主观性强度计算方法。同其它方法相比,情感密度子区间和模糊词汇主观性强度的引入一定程度上可以反映主、客观句子之间的细微区别,有利于主观性识别性能的提高。 (3) 以情感语素为基础,深入探索了不同粒度的情感之间的联系和融合机理,构建多粒度融合的句子情感强度计算方法,提出一种基于模糊集的中文句子情感分类方法,有效地解决了情感极性分类所面临的动态极性以及中文情感倾向性概念外延边界的模糊性等问题。 (4) 为了开发一个高质量的多领域意见标注语料库,我们制定le详细的语料建设方案,包括语料的结构设计、收集和标注等;同时,开发了相应的自动标注工具,如基本语言标注工具和意见要素标注工具等。迄今,已完成手机、汽车和数码相机等产品领域的语料收集、整理并初步完成基本语言标注、标点校对和意见要素等信息的标注。基于以上这些方法和资源,我们实现了一个汉语情感分析系统,并验证了方法的有效性。此外,在本项目支持下,项目组共发表学术论文21篇,培养学术骨干1名,培养硕士研究生11人。本项目的研究成果可广泛应用于意见摘要、商业智能、产品推荐等相关领域。