指代消解是自然语言处理的一个研究热点,在自然语言的篇章理解中举足轻重,也是信息融合的基础。本项目在中心理论的指导下,从句法和语义两个层面重点解决目前困扰指代消解研究的三个关键问题一是如何获取和利用有效的结构化句法信息;二是如何更好地利用语义信息;三是如何在单文档指代消解研究的基础上进行跨文档指代消解的研究。本项目首先提出了基于中心理论的动态指代解析树,利用树核函数直接计算动态树之间的相似度,有效集成各种结构化句法信息,在此基础上探讨了待消解项识别及其在指代消解中的作用;同时,以语义角色为载体,首次将中心理论从语法层拓展到语义层,深入探索了句中不同谓词的各种语义角色在中心理论中的作用,从语法和语义两个层面来提升指代消解的性能;最后,以单文本指代消解为基础,提出基于实体指代链的聚类和相似度计算方法,有效刻画数据集所固有的自然聚类簇结构,实现跨文本的指代消解。
coreference resolution;tree kernel;centering theory;Chinese zero anaphora;cross-document anaphora
指代消解是自然语言处理的一个研究热点,在自然语言的篇章理解中举足轻重,也是信息融合的基础。本项目从句法和语义两个层面重点进行了三个方面的工作将句法和依存信息相互融合,在中心理论的指导下提出了多种动态指代解析树和待消解项解析树的方案,借助树核函数直接计算动态结构树之间的相似度,从而有效集成多种句法、语义信息进行中英文指代消解;以语义角色为载体,集成局部和全局的多种语义信息进行指代、中文零指代以及事件指代消岐的研究;在单文档指代消岐的基础上以人名和地名为突破口,提出基于实体指代链的聚类和相似度计算方法,有效刻画数据集所固有的自然聚类簇结构,实现了高效的跨文本指代消解消解平台。三年来,课题总体进展顺利,所有研究计划已按要求完成,达到预期目标。项目共发表论文28篇,其中人工智能领域国际顶级会议IJCAI论文2篇,自然语言领域顶级会议EMNLP/COLING长文3篇,SCI索引的期刊论文1篇,计算机领域的权威核心期刊软件学报和计算机研究与发展论文各1篇,EI索引的期刊和会议论文7篇。申请专利3件,获得专利1件。