新闻话题检测是舆情分析领域中的重要研究课题,对于舆情的监督、管理和调控有着很高的实用价值。特别是新闻话题的变种检测对于突发事件和敏感话题的预报尤为重要。目前,针对话题变种检测问题的探索尚未开展,借助舆情的倾向演化解释话题变种衍生规律的研究在国内外尚属空白。本课题将重点研究新闻话题和倾向性的协同演化规律以及相应的机器学习策略,并探索话题变异锚点的实时检测和话题变种的描述方法。本课题的主要研究内容包含如下四个方面基于时序事件链的话题建模、基于"能愿"动词的倾向性识别、话题与倾向性协同演化的自适应学习、实时话题变种检测。特别是研究融入事件时序属性的结构化动态话题建模;利用"能愿"强度层次体系的倾向性演化描述;以及依赖倾向强度和事件突发性依存关系的协同演化数学建模。目标是实现针对舆情信息中倾向性和话题协同演化的自动监控,以及话题变种的有效识别与预报。
Event extraction;Dynamic topic modeling;Volition;Discourse relation analysis;topic variance detection
本课题旨在实现一种面向新闻流媒体的话题变种检测方法。针对这一目标,计划研究任务包括自由文本的事件抽取方法;以事件为元素的动态话题建模方法;基于能愿倾向的话题变异识别方法;以及变种话题的组装与描述方法。根据研究计划,课题组于近三年对上述各个研究点进行了系统分析与研究,提出成型方法多套,学术成果得到国际顶级学术会议的认可与发布,总体进展顺利。下面对本课题取得的研究成果进行概述。一)建立了以分类技术为基础的自由文本事件抽取方法,测试并验证了各类语言特征和统计信息在事件类型、触发词、元素和角色的分类抽取过程中的作用,并重点形成一种跨实体推理的事件分类抽取方法,抽取性能优于国际同期相关技术7个百分点。这一成果于2011年在国际A类学术会议ACL上以长文形式发表;二)验证了动态话题模型对捕捉话题在新闻信息流中变迁轨迹的优越适应性。在此基础上,提出并实践了多种动态话题模型,如时序事件链式话题结构,双层事件聚类的层次话题结构,基于聚类树的树形话题结构。其中,动态话题模型的验证尚属首次,由此形成的事件链动态话题模型在国际权威数据TDT上的话题检测与跟踪任务上,分别获得约16%和6%的性能提高。此外,层次话题模型和聚类树模型已实际应用于微博话题检测;三)构建了一套能愿词库,包含能愿词1,896项,相应能愿强度指标和应用实例。开发了一种自适应的能愿词新词识别和挖掘方法。借助该词库,本课题形成了一套以人的能愿倾向为线索,对话题变化进行先验识别与估计的方法。该方法在以商品评论满意度预测为应用场景的实验中,取得了评论话题变异的准确识别。相关成果以长文发表于2012年国际A类学术会议SIGIR;四)提出一种以篇章关系检测为基础变种话题描述方法,建立了基于能愿倾向的话题变种检测系统。三年来,发表核心和EI论文30余篇;国际顶级会议CIKM/SIGIR/ACL等论文5篇;国内一级学报“计算机学报”和“软件学报”3篇,形成并申请专利4件。