目前主流的事件抽取方法一般基于单一文档,所获得的事件信息不完整(如信息缺失)和语义不够明确(如代词指代)。同时,很多事件在互联网中存在关于该事件的大量报道,如果能把这些报道有效融合起来,就可能获得一个表述完整、语义明确的事件描述。相关研究尚属空白。本课题通过对零形指代项识别、多文档单一事件信息融合和多文档复杂事件信息融合等关键技术的研究,重点解决事件信息抽取中事件信息的完整性和语义明确性两大问题。特别是,本课题从单文档中事件的上下文信息和多文档中事件的结构化和平面信息等方面入手,提出了新颖的基于结构化信息的零形指代项识别方法、事件相似度计算模型、事件元素可信度评价模型和用于复杂事件融合的单一事件间的关联度模型,用于进一步提高单一事件和复杂事件信息的完整性及明确其语义。通过本课题的研究,可获得内容更完整和更全面,语义更明确的事件信息,从而可为各种需要语义信息支撑的自然语言处理技术服务。
Joint Model;Morphological Structure;Topic Structure;Consistency;Event Fusion
本课题在对缺省信息识别、事件抽取、单一事件信息融合和跨文本事件信息融合等关键技术进行研究的基础上,提出了新颖的事件抽取和融合方法,主要解决事件信息抽取中事件信息完整性和语义明确性问题,实现了一个高性能的中文事件抽取和融合平台,性能达到国际领先水平,为将来的进一步研究打下了扎实的基础。三年来,课题总体进展顺利,所有研究计划已按要求完成,达到预期目标。特别是1)在中文缺省项识别和消解方面针对中文缺省研究缺乏语料的现状,分别基于CTB 5.1和OntoNotes 3.0手工标注用于中文缺省项识别的基准语料库。在此基础上,提出了基于最小IP子树的缺省项识别方法和基于联合句法分析和分块依存分析的缺省项消解方法。该方法和现有最好方法相比,在中文OntoNotes 3.0上缺省项识别和消解的F1值分别提高了12.6%和6.8%;2)在中文事件抽取方面针对中文事件信息缺省问题,提出了基于触发词形态结构(Morpholoogical Structure)和核心语素(Head Morpheme)的中文触发词扩展方法,从而大大提高了中文事件抽取的性能。另外,针对同一文档中事件之间的内在关联性,提出了基于一致性原理的事件抽取方法,用于抽取缺乏有效信息的事件实例。在ACE 2005中文语料上的实验表明,这些方法和现有最好的句子级别事件抽取方法相比,在F1值上总提高达到了15.0%以上;3)在单文档事件融合方面针对中文事件论元大量缺省的问题,提出了基于话题结构理论和事件间相关性的事件融合模型。该方法在ACE 2005中文语料库上F1值在论元抽取上提高了4.3%;4)在跨文本事件融合方面初步探索了跨文本事件融合方法,提出了一种以句法分析为基础,以语义角色标注为基本系统框架的跨本文信息抽取和融合方法,提出了一种以层次聚类和可信度计算为核心的事件信息融合模型。在金融事件和恐怖事件上的实验表明,其准确率达到80%左右。三年来,发表SCI索引源期刊论文2篇、EI索引源期刊论文7篇、国际顶级会议IJCAI/ACL/EMNLP/COLING论文5篇;国内核心期刊论文20篇;申请专利7件,获得授权3件;获得软件著作权9项。