文本蕴涵,即一个文本(称为假设H)的意思可从另一个文本T中推断出来,称T蕴涵H,是自然语言处理研究中的难点和重点课题。文本蕴涵知识在蕴涵识别中有重要作用;相对英文,中文文本蕴涵方面的研究相对较少,积累的蕴涵知识资源不多。基于此,本项目提出利用在线百科和问答社区来获取中文文本蕴涵知识,主要特点和创新体现在(1)通过对中文各种在线百科和问答社区进行分析,提出利用这两种网络资源来获取词汇/短语蕴涵规则、模板蕴涵规则、蕴涵文本对;(2)借助这两种资源,用替换和统计方法,将获取到的短语、模板等已有的蕴涵知识用于新的蕴涵规则生成,进一步增加蕴涵知识规模;(3)为蕴涵规则获取上下文语义约束条件,并给出规则本身的类别信息,为规则的正确应用提供坚实基础;(4)针对文本蕴涵知识评测的难题,提出借助在线百科和问答社区,进行面向应用的文本蕴涵知识人工和自动性能评价,并分析蕴涵知识对实际应用的具体效用。
textual entailment;entailment knowledge;automatic acquisition;category system of entailment rule;performance evaluation
文本蕴涵识别是自然语言处理领域的重要研究内容之一,相关技术在信息检索、问答系统、机器翻译等方面都有重要应用。已有的研究表明,各种知识的不足、已标注的文本蕴涵对训练语料的规模限制,是影响文本蕴涵识别性能的关键因素之一。在有大量蕴涵规则知识和已标注训练语料的条件下,即使使用浅层的蕴涵识别方法,也能够得到不错的蕴涵识别性能。因此,本项目提出研究利用在线百科和问答社区来获取大量的中文文本蕴涵知识,包括词汇或短语蕴涵规则、模板蕴涵规则、“文本T-假设H”形式的蕴涵文本对。本项目的研究目标为提出一套基于在线百科和问答社区的中文文本蕴涵知识获取的方法和模型,整合已有研究在文本蕴涵知识资源获取方面的研究成果,充分利用网上多种中文在线百科和问答社区的价值,挖掘和获取以下三类蕴涵知识词汇或短语蕴涵规则、模板蕴涵规则、“文本T-假设H”形式的蕴涵文本。针对所设定的目标,我们进行了较为深入的研究。首先,通过对已有的词汇蕴涵规则进行分析,设计了区分不同形式蕴涵规则的分类体系,其中共包含10个大类。另外,提出了一种结合语境相似度特征和布朗聚类相似度特征的词汇蕴涵关系聚类验证方法,该方法在模式匹配抽取结果的基础上对词汇蕴涵关系进行验证过滤;同时也提出利用词向量技术,基于中文维基百科语料来训练词汇的词向量表示,并设计基于词向量的各种词汇蕴涵关系分类特征,来进行名词词对之间的蕴涵关系分类识别。最后,对获取到的词汇蕴涵知识,在文本蕴涵识别和微博主题建模中进行了应用和性能验证,表明获得的词汇蕴涵知识对文本蕴涵关系分类具有重要价值。构建了用于评测词汇蕴涵关系的数据集,可为其他研究者共享使用。