跨语言信息检索主要解决以一种语言描述的用户查询,能够同时从其它语言表示的文档集中找到与提问相关的结果,获得跨语言的集合。课题分析了目前制约信息检索精度偏低的原因,结合ontology的特性及人类处理自然语言的方式,提出基于ontology的跨语言信息检索解决方案。课题以汉语为源语言,面向2008北京奥运,设计受限领域本体知识框架,研究基于ontology的知识获取技术并建立适于跨语言信息检索的关键信息知识库,研究源语言知识映射/转换成为目标语言知识的机制,并以知识库为基础,研究信息检索方法,从而建立独立于语言之外的跨语言翻译模型。跨语言信息处理涉及信息检索、机器翻译和自然语言理解等多个研究领域,具有极大的研究价值,同时也为2008北京数字奥运建立多语言信息检索平台提供重要的应用价值。
互联网时代的到来,使得高效的搜索引擎成为人们获取信息的最重要手段之一,信息的日益国际化及语言之间的障碍形成了人们对跨语言信息检索的需求,而普遍存在的目标语译词准确性和检索结果的精确度偏低问题成为制约跨语言信息检索研究大步向前发展的瓶颈。本文以汉-英两种语言之间的跨语言信息检索为研究对象,提出了一种本体论和统计语言模型相结合的混合语言模型,给出跨语言信息检索的一整套解决方案。作为跨语言信息检索的重要环节,首先研究了混合语言模型的建模问题,该语言模型的结构由词义本体表示及语言本体知识组成,在此基础上,研究并实现了词义本体的构建、语言本体知识的自动获取等问题。通过对自然语言处理有关问题的应用评价,验证了所提出混合语言模型的有效性,进而将其应用于用户查询的目标语译词选择以及目标语言检索文档的排序,在该混合语言模型的指导下实现了一个跨语言信息检索的实验平台。具体地讲,本文从如下几个方面进行了研究1. 研究了跨语言信息检索的模型建模技术; 2. 研究了词义本体表示及语言本体知识的获取技术; 3. 研究了源语言用户查询的目标语译词选择技术; 4. 研究了跨语言信息检索结果文档的排序技术。