互联网信息的内容分析具有重要的理论意义和应用价值,观点挖掘是将网络信息内容分析引向深入的重要途径。本项目根据当前网络信息发展的趋势,把观点挖掘问题放在社会化媒体背景下进行研究。针对Web发展中观点挖掘出现的新特点,即观点表达上的特点、文本质量上的特点、文本观点与社会网络相互作用的特点等,通过有机结合观点挖掘和社会化媒体分析,从观点相关特征分析、观点文本质量分析、结合社会网络特点的观点分析等三个方面开展研究,拟提出网络文本的观点表达的语言特征和环境特征发现方法、融合话题相关性和社会化特征的观点文本的质量度量方法、以及结合社会网络特点的观点分析方法,力求在观点的语言表达分析、高质量信息获取、以及观点挖掘和社会网络相互作用等关键科学问题的研究中获得进展和突破。本项目将形成面向社会化媒体、结合网络特征进行观点挖掘的理论、方法和关键技术,为深化互联网信息的内容分析提供支持。
Opinion Mining;Social Media;Natural Language Analysis;Social Network Analysis;Text Quality Analysis
互联网信息分析的研究具有重要的理论意义和应用价值,观点挖掘是当前自然语言处理和Web挖掘领域的研究热点之一。本项目根据当前网络信息发展的趋势,针对网络社交媒体的观点挖掘中的关键问题开展研究。针对Web2.0、特别是在社交媒体的观点文本中,存在着质量参差不齐、结构和社会特征丰富等特点,本项目围绕社交媒体中观点的语言表达分析、支持观点挖掘的高质量信息获取、以及观点和社会网络相互作用等关键科学问题,开展文本观点挖掘研究。 在网络观点文本的获取方面,提出了信息过滤与文本质量评估、社交媒体观点检索等方法,为后续的观点分析挖掘工作提供具有较高质量的观点文本;在网络文本的特征分析方面,提出了基于“积木”的社交媒体的文本结构特征分析、基于结构化机器学习的词义消歧、以及话题和观点相融合的文本的主观性建模等方法,挖掘了网络文信息在文本结构、词义表达和主观性三方面的特征,为观点分析提供支持;在结合社会化媒体特征的观点分析方面,提出了基于语义关系的情感词典自动构建、网络评论信息的搭配识别、无监督自举式情感倾向性判断等方法,增强了情感倾向性分析方法的领域适应性,提高了观点分析的效果。 本项目面向网络社交媒体,结合网络特征进行观点挖掘研究,提出了网络观点文本获取、文本的特征分析和结合社交媒体特征的观点分析方法,为进一步深化互联网信息的内容分析提供支持。 结合项目研究成果,项目组发表论文14篇,其中在World Wide Web等国际SCI期刊上发表5篇,在AAAI、SIGIR和ICWSM等重要国际会议上发表7篇,在国内核心学术期刊上发表2篇,EI 收录9篇。上述论文已经被国内外同行多次引用。