共指消解是指将篇章中同一实体对象的各种描述进行合并,是自然语言处理研究的重要课题。共指消解技术的研究对机器翻译、信息抽取、信息检索及自动文摘等自然语言处理领域都有积极的促进作用。但是目前在有限的训练语料上,基于规则和统计共指消解方法只能覆盖有限的高频实例,忽略了更多的低频实例的作用,并且在传统的方法上,一旦确定所采用规则或者模型,参数将不会根据样例类别或特性自适应调整,缺乏灵活性。针对上述问题,本课题提出了基于实例动态泛化的共指消解研究框架,该方法充分利用高频实例的同时尽可能发挥低频实例的经验性作用,针对测试实例自适应的进行最优泛化点判定,从而可以大幅提高共指消解的指标。该课题主要研究内容如下共指句法和背景语义的特征的提取及共指实例的候选泛化点生成技术;泛化点动态匹配算法的探索和研究;共指实例的高效索引及检索技术;共指结果合并中矛盾消解技术以及共指消解研究的开放源码程序包的设计与共享。
coreference resolution;instance retrieval;dynamic generalization;mention identification;
本课题提出了基于实例动态泛化的共指消解研究框架,该方法充分利用高频实例的同时尽可能发挥低频实例的经验性作用,针对测试实例自适应的进行最优泛化点判定,从而可以大幅提高共指消解的指标,同时实现一个全自动高性能自适应的共指消解实验平台,为深入研究共指消解技术提供服务。该课题主要研究内容如下(1) 共指句法和背景语义的特征的提取及共指实例的候选泛化点生成技术;(2) 泛化点动态匹配算法的探索和研究; (3) 共指实例的高效索引及检索技术;(4) 共指结果合并中矛盾消解技术及共指消解研究的开放源码程序包的设计与共享;结合上述的各项研究内容,本课题中需要解决的几项关键科学问题如下(1) 语言无关的复杂背景语义特征抽取框架。(2) 实例泛化点的生成技术。 (3) 共指实例高效的检索技术研究,保证能够快速找到合适的泛化匹配点;(4) 动态泛化机制的实例检索机制研究,自适应的寻找最佳匹配实例; (5) 共指链矛盾消解技术。将我们三年来所完成的工作与计划书中的内容作对比,可以得出结论我们完全按照计划完成了预定的研究工作,对大部分内容进行了扩展和深化。研究工作开展以来,我实验室对经典共指消解模型中的三部分处理任务Mention识别、二元分类、共指链生成等都进行了探索。首先,在Mention识别方面,我们提出了新的Mention识别模型,提高Mention对的构建质量。其次,在二元分类方面,我们对基于实例动态泛化的共指消解算法中若干关键问题进行了深入研究构建了多种类型的泛化点,并给出了相应的抽取和使用规则;在此基础上,我们开发了实例存储的具体方法,引入了基于二进制比对的检索方法,在传统方法基础上大幅度的提高了检索效率;此外我们提出了多种泛化点选取标准,并用实验逐一检验,如何确定迭代过程的终止条件是另一个需要考虑的问题;为了改善传统特征约束力不足的问题,在平面特征的基础上,我们还使用了更加复杂的结构化特征,并在一定程度上改善了效果。再次,在共指链生成方面,我们从局部信息和全局排序两个方面出发,探究共指链生成方法和合并矛盾的处理方法,改进了最终的消解效果。最后,我们利用BART实验平台,采用基于实例动态泛化的共指消解和最大熵两种方法参加了CoNLL评测,取得了较好的成绩。