篇章衔接性分析是篇章理解的基础,而指代和省略是衔接机制中的核心问题,同时也是难点所在。受限于语料资源,目前国内外对于汉语篇章衔接性中指代和省略的研究进展缓慢。本项目将结合汉语自身的特点和规律,针对汉语篇章衔接性中的指代和省略问题展开研究。首先建立较大规模的汉语篇章衔接性标注语料库;在此基础上,通过先行事件候选的触发词识别、动态事件指代关系树的获取以及适用于事件指代消解的基于实体指代链的上下文相似度计算方法的研究,提出并实现综合使用多层面信息的事件指代消解方法;对于汉语中的省略,将从句法、语义和语用三个视角识别省略及对其进行消解;最后再利用联合学习机制将指代和省略消歧融合,建立统一的篇章消歧平台。本项目开展的研究工作对于推进汉语篇章衔接性分析的研究,推动计算语言学研究和中文信息技术的发展具有重要的理论意义和应用价值。
event anaphora;entity anaphora;ellipsis;empty element;joint learning
篇章衔接性分析是篇章理解的基础,本课题以衔接机制中的指代和省略为研究对象,主要进行了三方面的工作在OntoNotes语料库已有标注的基础上进行了实体、事件指代的标注,在空语类的基础上进行了中文零指代和省略项的标注,形成了一定规模的汉语篇章衔接性语料库;在前期实体指代研究的基础上,进一步探索了适用于事件指代消解的基于实体指代链的上下文相似度计算方法,大大提升了事件指代消歧的性能;从句法语义等多角度探索了汉语中的省略,并利用联合机制将省略融入汉语的实体指代消歧,进一步提升了汉语实体指代的性能。一年来,课题总体进展顺利,所有研究计划已按要求完成,达到预期目标。项目共发表论文7篇,其中国际顶级会议IJCAI/EMNLP/COLING长文各1篇,EI索引的会议论文1篇,中文信息学报2篇。申请专利3件,获得专利1件。