利用机器学习改进统计机器翻译的研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

利用机器学习改进统计机器翻译的研究

项目名称：利用机器学习改进统计机器翻译的研究
项目类别：青年科学基金项目
批准号：60903138
申请代码：F0206
项目来源：国家自然科学基金
研究期限：2010-01-01-2012-12-31

项目负责人：刘洋
负责人职称：副研究员
依托单位：清华大学
批准年度：2009

中文摘要：

目前，主流的统计机器翻译方法面临以下挑战翻译模型难以表示和容纳更丰富的与翻译过程密切相关的知识，训练算法从真实文本中获取的翻译规则数量巨大且质量良莠不齐，以及解码算法难以在庞大的搜索空间中高效准确地定位最优候选译文。作为一个新兴研究领域，统计机器翻译边缘性和交叉性的特点决定了它需要从其它学科借鉴新的成功理论来获得进一步的发展空间。我们认为机器学习能够为统计机器翻译提供帮助，因为两者之间存在紧密的联系。从机器学习的角度来看，统计机器翻译是一个结构化预测的问题。本项目希望在统计机器翻译和机器学习之间找到恰当的结合点，利用机器学习最新的研究成果（图模型、结构化半监督学习和近似推断）来为统计机器翻译当前所面临的挑战提供解决方案，从而进一步推动统计机器翻译的研究发展。开展此项目的研究，不仅可以让统计机器翻译和机器学习获得共同发展，同时能够帮助提高机器翻译系统的性能来为社会大众提供更好的服务。

中文主题词：统计机器翻译；机器学习；图模型；结构化半监督学习；近似推断

英文摘要：

statistical machine translatio；machine learning；structured prediction；graphical model；approximate inference

英文主题词： statistical machine translatio；machine learning；structured prediction；graphical model；approximate inference

结论摘要：

本项目严格按照计划书执行，顺利完成项目目标，取得预期的研究成果。本项目的目标是在统计机器翻译和机器学习之间找到恰当的结合点，利用机器学习最新的研究成果为统计机器翻译所面临的挑战提供解决方案。目前，主流的统计机器翻译方法面临以下挑战翻译模型难以表示和容纳更丰富的与翻译过程密切相关的知识，训练算法从真实文本中获取的翻译规则数量巨大且质量良莠不齐，以及解码算法难以在庞大的搜索空间中高效准确地定位最优候选译文。针对统计机器翻译在建模、训练和解码这三个关键问题上面临的挑战，本项目做出以下探索。在建模方面，提出基于同步树粘结语法的树到串翻译模型，克服了传统方法无法充分利用上下文信息的缺点，为实现从上下文无关到上下文相关的转变提供了新的思路。在训练方面，提出了URL模式与HTML结构相结合平行网页获取、利用检索构建平行语料库、利用调序图学习词汇化调序模型、利用权重对齐矩阵抽取规则、翻译森林快速生成、无监督判别式文法归纳、基于依存森林的规则抽取、最大排序相关训练等方法。在解码方面，提出了词语对齐的对偶分解、联合词语切分和翻译、联合句法分析和翻译等算法。本项目的研究工作发表了2篇ACL论文、1篇EMNLP论文、5篇COLING论文、2篇其他国际会议论文和2篇国内会议论文（均标注受本项目资助），其中8篇论文受EI检索。本项目完成1项国家发明专利的申请。培养3名博士生和2名硕士生。本项目的研究工作在国际机器翻译评测中得到实际验证。在2010年的国际口语自动翻译评测（IWSLT）中，我们开发的机器翻译系统在多个项目中获得了自动评测第一的好成绩。受本项目资助，项目组成员积极参加学术交流，在ACL 2010做3个小时的讲座介绍我们的工作，这是大陆学者首次在自然语言处理的最高会议上开设讲座。此外，我们还在IUCS 2010、CJNLP 2010、CINACS 2012等国际会议和研讨会上做特邀报告，在国内会议YCCL 2010做特邀报告。我们在交流过程中与国内外研究人员深入讨论，建立了良好的合作关系。项目经费严格按照基金委相关规定支出，使用情况符合计划书预算。

成果综合统计