在统计机器翻译过程中,由于互译语言(源语言与目标语言)形态结构不对称,极易造成译文错误。2005年以来,将语言学形态知识应用于统计机器翻译的方法引起了国内外学者的广泛关注,并围绕英语/捷克语、英语/土耳其语等形态非对称语言的机器翻译开展了研究。我国少数民族语言大多属于形态丰富语言(屈折语、黏着语),而汉语属非形态语言(孤立语)。在汉/民机器翻译中,由于语言形态结构不对称,经常导致译文在语法、语义、语用等层面出现错误。本项目针对上述问题,拟开展以下研究1、多层级的形态分析方法;2、形态信息与统计模型融合策略;3、融合形态信息机器翻译解码算法;并以语言形态差异较大的汉/蒙统计机器翻译为例,开展相关实验。通过上述研究,探索应用形态学知识构建统计模型的机制;为形态丰富的屈折语和黏着语的形态处理提出有效的解决方案;为互译语言形态非对称的统计机器翻译模型构造理论方法提供新思路和依据。
Morphological analysis;Model integration;Machine translation;Minority Languages;
在统计机器翻译系统中,由于互译语言形态结构不对称,极易造成译文错误。我国少数民族语言大多属于形态丰富语言(屈折语、黏着语),而汉语属非形态语言(孤立语)。在汉/民机器翻译中,由于语言形态结构不对称,经常导致译文在语法、语义、语用等层面出现错误。针对上述问题,在本项目中我们研究了多层级的形态分析方法,为形态丰富的屈折语和黏着语的形态处理提出了有效的解决方案;重点突破了应用形态学知识构建统计模型(尤其是调序模型)的机制,为互译语言形态非对称的统计机器翻译模型构造理论方法提供了新思路和依据;以语言形态差异较大的汉语和蒙古语为例,在机器翻译系统中进行实验验证;探索了基于Web的汉蒙语言资源自动挖掘技术,为中文语言资源联盟提供了一定的汉蒙平行语料。在2011年和2013年全国机器翻译研讨会(CWMT)的评测项目中,我们取得了良好的成绩,验证了本项目的研究成果。