针对传统统计机器翻译模型大都是在一个的平行语料库上独立进行翻译知识获取的不足,本项目尝试利用不同双语平行语料库之间的关联,挖掘多个语料库整体组合中所蕴含的翻译知识。我们将经由中轴语言的翻译知识传递累积过程形式化为相应稀疏矩阵操作,提出了基于线性结构的多级中轴语言短语翻译知识获取模型,利用一系列双语平行语料之间所蕴含翻译知识的线性传递,使得原本不存在充足训练数据的两种语言可以通过多种中轴语言的线性组合构建翻译系统。并且,利用扩展矩阵中非0元素比例的方法,对源语言-目标语言之间存在的多条翻译路径和多种翻译资源所能提取的翻译知识进行了融合,促使统计机器翻译在解码过程中利用尽可能多的翻译资源。我们希望通过相关问题的研究和解决,即能借鉴数学和人工智能等学科的成熟知识累积来进一步夯实统计机器翻译的理论基础,又能降低其所需的翻译资源壁垒,提升统计机器翻译的翻译性能为社会大众提供更加有效的服务
statistical machine translation;pivot language translation;translation knowledge;random walk method;nonparametric Bayesian methods
近年来,统计方法已成为机器翻译研究领域的主流方法。由于统计机器翻译能够以较小的代价有效地缓解传统翻译方法中所面临的知识获取瓶颈问题,实现任意语言对之间的互译,它不仅在学术界受到越来越多的关注,同时开始逐步走向实用化。尽管如此,统计机器翻译仍远未发展成熟。这主要因为统计机器翻译是数据驱动的,翻译结果的好坏很大程度上取决于所使用平行语料的规模和质量。对于常见的语言对(例如中文-英文),我们可以通过互联网获取大规模的中英双语平行语料用以训练中英翻译模型。但是对于大多数语言对(例如中文-泰文),仅存在少量双语平行语料,并不足以构建高质量翻译模型。为解决此问题,我们引入了枢轴语言翻译方法,构建了多条连接同一源语言和目标语言对的翻译路径,并将这些翻译知识尽可能多地整合起来,最大程度提高翻译质量。我们首先自己标注的5万句以奥运会为相关主题的中-英-日三语平行语料,并对翻译知识抽取和融合过程中的关键问题开展了研究通过将源语言-枢轴语和枢轴语-目标语言两个概率空间融合的方法,估计了更加准确的短语翻译概率估计通过引入随机游走方法,对翻译知识的生成路径加以扩展,获得了覆盖范围更加全面的翻译知识。通过引入非参数贝叶斯过程对短语翻译概率的计算过程进行建模;然后使用层次Pitman-Yor 过程对翻译知识进行融合,为解码器尽可能提供更加丰富的翻译知识。