随着互联网以及用户参与程度的不断提高,情感倾向性分析已经成为商业智能决策、舆情分析等系统中必不可少的组成部分,同时也成为近年来自然语言处理领域的热门研究方向之一。但是目前的以模板和槽填充的表示方式,以及实体和关系抽取为主要方法的研究面临一些新的问题。 在本项课题中,我们将研究结构化的中英文情感倾向的描述方法,并在新的描述方法基础上研究分析技术,将书面语以及口语话文本转化为该种描述方式,从而提高应用系统的准确性和可用性。其研究目标包括1)研究新的基于图的结构化情感倾向描述方法;2)构建符合该描述方法的情感倾向分析标准语料库;3)研究基于结构化机器学习方法的情感倾向分析挖掘算法;4)将情感倾向分析发掘结果集成到观点检索、舆情分析等系统。 预期的研究成果包括国内外权威期刊和主流学术会议论文8~12篇,专利1~2项。
Sentiment Analysis;Sentiment Representation;;;
随着互联网的发展,我们可以从网络新闻、介绍、评论、BBS、聊天室、博客、论坛等来源中我们可以很容易的得到海量数据,因此人们越来越希望能够自动的从海量数据发掘出更高层次的语义信息。由于互联网上的文本内容来源众多,观点多样等特点,情感倾向分析作为一个研究热点受到越来越多的关注,学术界和企业界近年来也逐渐开展了这方面的研究。如申请书所述,在本项课题中主要研究结构化情感倾向描述及建模方法,我们从结构化情感倾向表示、结构化机器学习方法和应用三个方面展开了研究,除此之外,我们还针对近年来快速发展的社会媒体开展了针对性研究,具体研究工作如下 结构化情感倾向表示针对传统情感倾向分析中所采用的以模板和槽填充为代表的表示方法中的不完整、歧义等问题,我们提出了句子、文档以及多文档级别的结构化情感倾向表示方法,部分解决现有表示方法的不足,并在多个领域利用大规模语料进行了验证。实验结果表明,所提出的方法可有效的解决绝大部分歧义和不完整性问题。 结构化机器学习方法在结构化情感倾向表示研究的基础上,针对倾向性文本中评价词、评价对象以及各种条件之间的关系,我们研究了基于整数线性规划、Markov逻辑网等方法的结构化机器学习算法,并利用其对倾向性文本进行结构化表示。所提出的方法与目前的主流结构化机器学习方法相比在准确性上有显著提高。 面向社会媒体的倾向性分析针对社会媒体中自然语言的特殊现象,以及社会媒体中所包含的Hashtag、用户结构信息等特殊属性,我们还研究了社会媒体中自然语言正规化、Hashtag提取等问题。其中,中英文混合文本正则化问题在自然语言处理领域首次提出,并给出了多种解决算法。 应用系统在结构化情感倾向表示和分析的研究基础上,我们还针对舆情分析、评价挖掘等实际系统中开展了多项工作,以该研究为基础的倾向性分析方法还作为互联网高速管控系统的重要组成部分,充分验证表示方法和学习方法的有效性和可用性。 经过三年的研究,我们在 SIGIR, IJCAI, EMNLP, CIKM, COLING, IJCNLP等国际权威会议和期刊上发表了21篇学术论文,申请专利2 项(其中1项已经获批),相关成果作为互联网高速管控系统的重要组成部分,获得了2012年上海市科技进步二等奖和2012年教育部科技进步二等奖,从而圆满地完成了任务书所规定的任务。