实体翻译在机器翻译、跨语言信息检索等领域都有非常重要的用途。目前实体翻译面临以下几个挑战实体作为多信息成分的组合体,在翻译中呈现不同的映射方式,目前翻译模型难以表示和容纳这些丰富的映射知识;传统的双语实体抽取方法难以从模式、内容多样性的网络资源中获取双语词典;实体识别错误是实体翻译应用于机器翻译系统的最大障碍。因此,本项目拟在以下几个方面进行深入研究和探索(1)在对实体映射关系进行分析、定义的基础上,结合实体识别任务,提出实体映射关系的理解方法;(2)在此基础上,研究提出基于映射关系理解的实体翻译一体化模型;(3)利用图模型对混合网页中翻译对的抽取问题进行建模,并建立主动学习引导下的双语词典生成的新方法;(4)最终面向机器翻译的应用,提出基于多核学习的扩展实体翻译模型,实现实体识别和实体翻译的交互,并辅助机器翻译系统性能的提高。本项目开展的研究工作具有重要的理论意义和应用价值。
Named entity;named entity translation;machine translation;named entity alignment;named entity recognition
本项目针对目前命名实体翻译面临的几个关键问题如何准确理解实体内部词所映射的语义并进行翻译;如何使双语实体识别与实体对齐相辅相成;以及最终如何有机结合实体翻译与机器翻译等问题,展开了一系列研究,取得的主要技术进展和研究成果归纳如下(1) 分析了汉英实体识别的差异性和互补性,提出了汉英双语实体识别与对齐的联合式模型,突破了传统的实体对齐框架。该联合式模型不仅有效提高了实体对齐的性能,而且大幅度提高了实体识别结果。(2) 提出了一种融合生成式和区分式的汉语分词模型,可应用于实体的内部标注,可以更好地理解实体内部词的语义及相互关系。(3) 针对实体词的多义性,提出了基于语义理解的汉语实体翻译方法,有效提高了人名、地名和机构名的翻译效果。(4) 基于双语实体识别与对齐的特性,提出了汉英双语实体识别与对齐的交互式方法,包括基本对齐计算和修正对齐计算。其中的修正对齐计算根据单语和双语序列上的实体置信度,重新判断实体的边界和类别,实现了双语实体识别与对齐的交互。(5) 未登录词在实体中占有很大的比例,严重影响了机器翻译效果,因此,针对未登录词提出了基于语义功能的挖掘模型,可以有效地解决未登录词在翻译模型中造成的短语调序问题。 基于以上研究成果,我们实现了一个汉英双语实体识别与翻译的高性能系统。该系统加入到机器翻译系统后,可以有效改善译文质量,为将来的进一步研究打下了扎实的基础。 三年来,项目总体进展顺利,所有研究计划已按要求完成。共发表学术论文15篇,被国际顶级期刊录用论文2篇,获一项学术会议最佳论文奖;申请国家发明专利2项,获2项软件著作权登记;培养研究生8名,达到了项目的预期目标和成果。