随着Web2.0这一强调用户参与的新技术时代的到来,越来越多的用户愿意在网络上发表自己对某一产品或事件的意见或看法。合理的利用这些网络评论资源,具有广泛的商业价值和现实意义。然而区别于传统的信息检索及数据挖掘任务,意见挖掘在研究方法上存在着许多先天的困难和挑战。 为了解决这些问题,本项目旨在开发有效的数据模型以描述网络评论这一特殊的数据源,并基于对这些模型的分析,建立一套比较完善的理论研究和应用方法,以实现设计并优化具有自适应特点的意见挖掘模型,有效地提取动态的意见特征,实现对网络评论全面而深入的理解;量化评论质量,不仅能够实现过滤垃圾评论的基本功能,而且能够自动筛选高质量可信性强的评论;构建概率模型,提出和优化具有广泛使用价值的、支持质量察觉的网络评论挖掘办法。
Sentiment Analysis;Opinion Mining;Review Quality Mining;;
近年来,网络评论数据的迅速增长为更好地了解用户意见并提高商业智能服务水平提供的便利。在本研究中,我们首先系统地对网络评论这一特殊的数据源进行了分析,分别设计了PPM模型和S-PLSA模型用以实现评论文本中的主题和情感特征提取。在此基础上,针对网络评论数据数量巨大质量参差不齐的特点,我们综合分析了影响网络评论质量的多元因素并设计出一种个性化预测模型,实现了自动衡量网络评论优劣的功能。同时,根据用户意见动态变化的特点,我们提出了一种改进的S-PLSA+模型使其能够在遇到新数据时,自适应的改变模型系统参数,从而更准确地把握网络意见的衍化趋势。最后,我们以电影评论数据为试验平台,设计出一种ARSQA模型,能够有效地将评论情感分析与质量分析结合起来实现未来电影票房收入的预测。大量的现实数据证明了模型的有效性。本项目的多篇理论研究成果已陆续发表在国内外高水平学术期刊及会议中,其中包括英文专著2篇,SCI检索论文4篇,EI检索论文7篇。本项目的成果将为本领域的进一步研究和开发奠定基础,并预期将在舆情分析,文本评论挖掘,商业智能等系统中得到广泛的应用。