文本语义推理是近几年出现的一个新方向,并迅速成为了研究的热点问题。本项目的研究目的是,充分利用已有的语言资源,围绕文本语义推理问题,从不同层面开展汉语文本的语义计算研究,以期建立汉语文本语义推理的基本框架。研究内容主要包括如下四个方面(1)研究词汇的概念语义关系的分析方法。重点分析文本中名词(短语)概念以及概念关系,建立指代词与先行词之间的关联;确立缩略语与原形语之间的关联,从而将文本构造成若干个可替换的词集;为基于词汇替换的推理服务;(2)研究句子语义的统一表示形式。在语义角色标注的基础上,将句子变换成"谓词-变元"的表示;(3)研究基于谓词的语义关系自动获取方式,利用复述技术和交叉度计算方法,分析谓词之间的语义关系,获取语义关系,为基于谓词替换的推理提供静态的知识源;(4)研究基于逻辑和基于概率的两种推理框架,使之既可适应精确推理,又可适应模糊推理。
Lexical conception;Discourse parsing;Sentence semantics;Semantic computation;Semantic reasoning
课题围绕词汇层、语句层、篇章层三个层次对汉语文本语义推理的方法及其应用展开了研究,三年来的主要进展归纳为如下三方面(1)在词汇层研究概念语义关系的分析方法。重点在于确立缩略语与原形语之间的关联,为基于词汇替换的推理服务;(2)在语句层研究中文文本蕴含的推理模型,将句子间的推理关系划归到词的推理关系上,尝试规则和概率方法进行推理;(3)在篇章层研究句间和段间修辞关系的分析方法,为在篇章层进行文本推理打下基础。课题一直按项目预定的计划进行,达到了项目预期的目标,并完成了项目预期的研究成果。基于以上研究内容,形成了理论结合实践、规范和资源共建、技术实用化的一整套比较系统的研究成果。(1)理论成果相应的研究成果发表国内外会议和期刊上。其中,SCI索引论文3篇,在国际顶级会议ACL,WWW,CIKM,KDD,EMNLP, COLONG共发表论文8篇。同时项目相关的一些研究成果融于综合型语言知识库,获得了中国电子学会电子信息科学技术奖(一等奖)和国家科学技术进步奖(二等奖)。(2)规范和资源建设收集和挖掘8350对缩略语及其完整形式的对照表;构建和完善了一套篇章标注规范,并在此规范下收集和标注了近百篇新闻文档和医学文档。3)系统实践参加了三届TAC国际摘要评测;参加了Semeval-2010的关键词抽取评测;参加了CIPS-SIGHAN 2010评测的任务4(汉语词义归纳);参加了NTCIR-9的RITE评测任务(文本蕴含推理);参加了COAE第三届中文倾向性分析评测的4项任务;组织了CIPS-SIGHAN 2012的实体消歧任务,验证了我们的研究成果。(4)学术交流与香港理工大学、北京语言大学、中科院计算技术研究所、中国科学技术信息研究所、IBM研究院等进行学术交流、资源转让与技术合作等。(5)人才培养指导了2名博士生、8名硕士生、6名本科生顺利毕业。有2名硕士生获得优秀硕士论文,多名本科生获得北京大学信息学院优秀本科毕业论文。