基于多种双语平行语料相互关联分析的中轴语言统计翻译知识获取研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

基于多种双语平行语料相互关联分析的中轴语言统计翻译知识获取研究

项目名称：基于多种双语平行语料相互关联分析的中轴语言统计翻译知识获取研究
项目类别：青年科学基金项目
批准号：61100093
申请代码：F020605
项目来源：国家自然科学基金
研究期限：2012-01-01-2014-12-31

项目负责人：朱聪慧
依托单位：哈尔滨工业大学
批准年度：2011

中文摘要：

针对传统统计机器翻译模型大都是在一个的平行语料库上独立进行翻译知识获取的不足，本项目尝试利用不同双语平行语料库之间的关联，挖掘多个语料库整体组合中所蕴含的翻译知识。我们将经由中轴语言的翻译知识传递累积过程形式化为相应稀疏矩阵操作，提出了基于线性结构的多级中轴语言短语翻译知识获取模型，利用一系列双语平行语料之间所蕴含翻译知识的线性传递，使得原本不存在充足训练数据的两种语言可以通过多种中轴语言的线性组合构建翻译系统。并且，利用扩展矩阵中非0元素比例的方法，对源语言-目标语言之间存在的多条翻译路径和多种翻译资源所能提取的翻译知识进行了融合，促使统计机器翻译在解码过程中利用尽可能多的翻译资源。我们希望通过相关问题的研究和解决，即能借鉴数学和人工智能等学科的成熟知识累积来进一步夯实统计机器翻译的理论基础，又能降低其所需的翻译资源壁垒，提升统计机器翻译的翻译性能为社会大众提供更加有效的服务

中文主题词：统计机器翻译；枢轴语翻译；翻译知识；随机游走；非参数贝叶斯

英文摘要：

statistical machine translation；pivot language translation；translation knowledge；random walk method；nonparametric Bayesian methods

英文主题词： statistical machine translation；pivot language translation；translation knowledge；random walk method；nonparametric Bayesian methods

结论摘要：

近年来，统计方法已成为机器翻译研究领域的主流方法。由于统计机器翻译能够以较小的代价有效地缓解传统翻译方法中所面临的知识获取瓶颈问题，实现任意语言对之间的互译，它不仅在学术界受到越来越多的关注，同时开始逐步走向实用化。尽管如此，统计机器翻译仍远未发展成熟。这主要因为统计机器翻译是数据驱动的，翻译结果的好坏很大程度上取决于所使用平行语料的规模和质量。对于常见的语言对（例如中文-英文），我们可以通过互联网获取大规模的中英双语平行语料用以训练中英翻译模型。但是对于大多数语言对（例如中文-泰文），仅存在少量双语平行语料，并不足以构建高质量翻译模型。为解决此问题，我们引入了枢轴语言翻译方法，构建了多条连接同一源语言和目标语言对的翻译路径，并将这些翻译知识尽可能多地整合起来，最大程度提高翻译质量。我们首先自己标注的5万句以奥运会为相关主题的中-英-日三语平行语料，并对翻译知识抽取和融合过程中的关键问题开展了研究通过将源语言-枢轴语和枢轴语-目标语言两个概率空间融合的方法，估计了更加准确的短语翻译概率估计通过引入随机游走方法，对翻译知识的生成路径加以扩展，获得了覆盖范围更加全面的翻译知识。通过引入非参数贝叶斯过程对短语翻译概率的计算过程进行建模；然后使用层次Pitman-Yor 过程对翻译知识进行融合，为解码器尽可能提供更加丰富的翻译知识。

成果综合统计

成果类型

数量

期刊论文
会议论文
专利
获奖
著作

期刊论文

层次短语翻译中基于Markov随机场的层次切分模型

对数线性翻译模型的判别式训练综述