科技文献自动翻译具有重要的研究意义和实用价值。本项目以统计机器翻译技术为基础,研究了适合科技文献翻译的机器翻译关键技术和方法。主要研究内容包括三个方面句子骨干翻译模板的自动获取;传统语言学知识和统计机器翻译模型的融合策略;以及统计机器翻译系统的领域自适应方法。我们提出了长距离调序模板的自动获取方法;基于依存句法树的翻译模板获取方法;翻译词典、翻译模板以及句法知识在统计机器翻译系统中的融合策略;以及基于上下文模型和Bagging的领域自适应方法等多种解决方案,有效提高了科技文献的自动翻译质量。这些研究工作发表在计算语言学领域的顶级会议ACL、EMNLP、COLING上,产生了一定的影响。我们基于这些技术开发了一个面向专利文献翻译的机器翻译系统,该系统已经大规模用于实际工作中,实现了300余万篇中国专利文献全文的翻译,用户评价的自动翻译正确率可以达到70%-85%。
英文主题词Scientific literature translation; Statistical machine translation; Translation template; Domain adaptation;