互联网信息在全球范围共享的主要障碍是多语言问题,跨语言信息检索(CLIR)是解决该问题的有效方法之一。但是,现有的跨语言信息检索的精确率过低,没有达到实用的水平,提高跨语言信息检索系统性能的关键是提高检索语句的翻译精度。本项目从中英文两种语言的信息检索入手,研究跨语言信息检索中机器翻译的若干关键技术。针对跨语言信息检索及机器翻译的特点,从三个方面提高机器翻译的精确率一是考虑从单语检索结果中提取出检索语句本身的多种词法信息,为检索语句的翻译提供细粒度词法信息,从而提高检索语句的翻译精度;二是提出一种融合短语结构和句法功能的功能短语,把对翻译要素的考虑提前到句法分析阶段,提高句法结构歧义的消歧率和机器翻译的精确率;三是提出可嵌套模板函数和统计方法等多模型结合的机器翻译方法,提高含复杂结构的句子或短语的翻译精度。其中,后两种方法对一般机器翻译的研究也具有重要意义和应用价值。
Cross Language Information Retrieval;Machine Translation;Function Phrase;Bilingual Named Entity;
围绕跨语言信息检索中机器翻译的若干关键问题展开了深入研究,主要研究内容包括汉语自动分词与词法分析、跨语言信息检索的语言资源建设、短语识别算法、双语命名实体和术语的自动挖掘、机器翻译模型研究等相关研究。取得研究结果(1)提出了一种新的句法结构歧义消解方法,将英汉机器翻译中的英语句法结构歧义转化为功能名词短语的识别,并提出一种统计与规则结合的功能名词短语识别方法;(2)提出了统计与规则融合的系列算法,并在名词短语识别、双语命名实体挖掘、时间表达式识别、模糊限制信息检测、新词识别等自然语言处理任务上获得了较优的实验结果;(3)提出了一种基于汉字与音节转换概率的音译算法,建立了汉英双向音译模型,并将音译模型和基于短语的统计机器翻译融合,显著提高了复杂结构短语和句子的翻译精度。研究结果表明功能名词短语应用到机器翻译领域,可以消除部分复杂名词短语的结构歧义,从而达到提高现有机器翻译系统性能的目的。