要解决自然语言文本生成中语义信息覆盖、冗余控制以及语义连贯等关键问题,首先要理解文本语料的意义。近年来,事件语义研究成为了自然语言处理领域的热点,但理论语言学仅通过特殊句式来分析事件语义,没有考虑事件语义的计算特性。本项目以小句原子事件为基本信息单位,基于篇章宏观结构和事件语义学的意义组合性原则,自下而上研究句子、段落以及篇章的事件语义计算理论与方法,通过事件语义计算达到对文本语料意义理解的目的,进而基于事件语义计算结果生成表达原文本语料意义的新文本。在基于文本语料实例进行半监督增量学习获得事件语义模式的基础上,本项目研究事件语义结构和事件语义关系识别技术,并使用事件图和事件关系图对事件和事件语义关系进行形式化描述;面向自然语言文本生成,采用优化后的图算法对事件关系图中的事件语义进行计算,进而探讨在自动文摘、问答系统、信息检索等领域有重大应用价值的基于事件语义计算的自然语言文本生成技术。
Event Semantics;Event Structure;Event Semantic Relation;Event Graph;Text Generation
事件语义学的认知与计算模型可以用于解决自然语言文本分析与理解中的语义信息覆盖、冗余控制以及语义连贯等关键问题。本项目以小句原子事件为基本信息单位,基于篇章宏观结构和事件语义学的意义组合性原则,自下而上研究了句子、段落以及篇章的事件语义认知理论与计算方法。针对文本自动摘要,本项目在识别出原文本语料中的事件、事件语义结构、事件语义关系的基础上,使用事件图对事件结构和事件关系进行形式化描述,采用优化后的图算法对事件图中的事件语义进行计算,进而基于事件语义计算结果生成表达原文本语料意义的新文本。针对文本蕴涵关系识别问题,首先使用事件图来表达两段文本,然后基于事件图提取相关语义特征,最后利用特征采用分类模型识别出文本间是否具有蕴涵关系以及蕴涵关系的类型。本项目的系列研究成果,除用在文本自动摘要和文本蕴涵外,在医疗、钢铁等专业领域文本以及跨媒体的分析与理解方面,有着重要的应用前景。