语义计算是解决计算机理解自然语言的关键技术之一,人们期望通过语义计算以提升众多自然语言理解应用(如机器翻译、信息抽取、信息过滤、信息检索、文本摘要、问答等)的性能。通过本项目的开展,我们希望能对语义资源(特别是汉语语义资源)的共享和测评尽一点绵薄之力(1)通过对不同标注体系,涉及不同语义范畴的语义资源标注点的分析,构建相关资源的映射和共享体系,建立基于统一描述语言的汉语语义资源开放共享网络平台,为语义资源建设者和语义资源使用者架设桥梁,促进汉语语义资源的建设和应用,提升汉语语义资源的国际国内影响力;(2)通过汉语语义测评技术的研究和测评会议的开展,为汉语语义研究者提供一个公共测评环境,提高研究方法的可重复性,推动汉语语义分析技术的不断进展;(3)通过语义成果应用测评任务的设立,从应用需求中提炼目标,引导新的研究方向,探索语义计算与理解对典型语言处理应用系统性能的影响。
semantic computing;semantic resource sharing;natural language understanding;Chinese semantic evaluation;
语义计算是解决计算机理解自然语言的关键技术之一,人们期望通过语义计算以提升众多自然语言理解应用(如机器翻译、信息抽取、信息过滤、信息检索、文本摘要、问答等)的性能。本课题的研究目的是在汉语语义资源的共享和测评方法方面开展一些工作通过对不同标注体系,涉及不同语义范畴的语义资源标注点的分析,构建相关资源的映射和共享体系,为语义资源建设者和语义资源使用者架设桥梁,促进汉语语义资源的建设和应用;通过汉语语义测评技术的研究和测评会议的开展,提高研究方法的可重复性;通过语义应用测评任务的设立,探索语义计算与理解对典型语言处理应用系统(文本检索系统)性能的影响。针对上述研究目的,本课题主要在以下几个方面开展了研究(1)语义资源表示及构建技术。语义资源是提升计算机视听觉信息理解能力和处理效率的关键所在。然而,人类认知需要海量的语义资源,因此专家编写通常不是构建语义资源库的可行解决方案。为此,本项目研究了自动语义关系抽取算法,通过从便于抽取且具有足够知识覆盖度的Web 2.0信息源(如百度百科,维基百科等等)中获取语义知识来构建高覆盖率的语义资源。(2)基于多源知识的跨文本实体链接技术。给定语义资源库,如何快速准确的将视听觉信息中的关键信息与语义资源库中的对应知识点链接是利用这些知识进行认知计算的关键。本课题研究基于多源知识的跨文本实体链接技术,通过综合使用实体的知名度知识、实体的上下文知识和文本的主题一致性知识,实现了高性能的跨文本实体链接。(3)基于用户查询意图(语义)理解的文本检索技术。基于上述两项技术,本课题以信息检索系统为平台,构建了基于用户查询意图理解的文本检索技术,探索了语义资源和语义计算技术对信息检索任务的提升作用。通过本课题的开展,发表国际会议论文15篇(包括顶级国际会议SIGIR、ACL、CIKM、EMNLP等),国内期刊论文3篇(计算机学报、中文信息学报),国内会议论文1篇。举办汉语语义国际测评1次,国际机器翻译会议1次。