快速收集突发事件报道相关的信息,以简洁、直观的形式表示信息,全面而准确地融合不同来源的信息,是科学决策并有效应对非常规突发事件的重要基础。以文本表示为主的互联网络因信息传播快速、参与人员多且分布广泛,成为了最有价值的信息集散地。本项目将以Web文本为主,结合网上社区论坛,研究突发事件的信息融合技术。项目通过术语挖掘获取突发事件的领域知识和构建事件框架的Ontology,在此基础上,研究面向自然语言文本的突发事件检测与分类方法;通过事件模式挖掘与匹配以及语义角色标注等手段,抽取突发事件的信息,形成框架表示;通过统计和观点挖掘,分析事件的关注度;通过事件共指消解,研究突发事件的信息融合技术。将数据挖掘技术、机器学习技术与自然语言处理技术相结合,进行大规模文本信息及时获取与动态融合是本项目要解决的关键科学问题。
Emergent event;information on Web;event detection;opinion mining;entity recognition
突发事件是指事先未曾预知而突然发生的事件,如自然灾害、安全事故、食品卫生安全以及群体性社会事件。突发事件通常会对社会的正常秩序造成很大的影响甚至冲击。互联网因其分布广且参与人多,已经成为了信息集散地。从互联网上获取突发事件信息、整理信息并供决策使用,理应成为突发事件处置的重要研究内容。本课题围绕网上突发事件信息以及可能产生的影响等问题展开研究。重点探讨了突发事件的客观信息检测和收集以及主观观点的分析等问题。主要包括(1)研究了突发事件检测和跟踪的方法。通过我们的方法检测的重大事件与新闻机构评选出的年度重大新闻有很高的吻合度;(2)研究了突发事件报道的信息浓缩方法。一般情况下,突发事件报道量非常大,为了快速了解事件情况,本项目研究了通过文本摘要进行信息浓缩;(3) 以实体识别与实体消歧为基础,研究了突发事件要素的识别方法和融合方法。事件的核心要素是实体,包括时间、地点、人(机构)、数量等。构建事件框架需要获取这些信息;(4)研究了观点挖掘方法。突发事件很容易引起人们的情绪发泄和情感表达,而这些对突发事件本身的演化又会产生影响。本项目开展了多种方式的情感分析研究和支撑情感分析的基础资源建设;(5)网络文本的基础性问题研究。社交媒体是突发事件传播的主要渠道,而社交媒体(如微博)等有大量的特殊表达方式,课题组开展了诸如分词等特殊问题的研究。三年来,项目组很好地完成了预期任务,共发表论文 29 篇,申请专利4项。其中,期刊论文 8 篇(包括英文期刊TALIP);会议论文 21 篇,其中,国际顶级会议论文 11 篇,包括4 篇ACL(2012,2013各2篇)论文,1篇SIGKDD2012,3篇EMNLP(2012年1篇,2013年 2篇),3篇COLING(2012)。采集了一年的网络新闻数据和 10天的微博数据,开发了多个文本处理的工具,参加了二次国际评测(TAC的KBP评测和CONLL-shared2011年的评测),组织了2012年Sighan的评测。与国内外多家研究机构进行了学术交流和合作。以此为基础,项目负责人还获得了多项重要的国家项目。