位置:立项数据库 > 立项详情页
面向科技文献的机器翻译关键技术研究
  • 项目名称:面向科技文献的机器翻译关键技术研究
  • 项目类别:面上项目
  • 批准号:60873167
  • 申请代码:F020605
  • 项目来源:国家自然科学基金
  • 研究期限:2009-01-01-2011-12-31
  • 项目负责人:吕雅娟
  • 负责人职称:副研究员
  • 依托单位:中国科学院计算技术研究所
  • 批准年度:2008
中文摘要:

科技文献自动翻译具有重要的研究意义和实用价值。本项目以统计机器翻译技术为基础,研究了适合科技文献翻译的机器翻译关键技术和方法。主要研究内容包括三个方面句子骨干翻译模板的自动获取;传统语言学知识和统计机器翻译模型的融合策略;以及统计机器翻译系统的领域自适应方法。我们提出了长距离调序模板的自动获取方法;基于依存句法树的翻译模板获取方法;翻译词典、翻译模板以及句法知识在统计机器翻译系统中的融合策略;以及基于上下文模型和Bagging的领域自适应方法等多种解决方案,有效提高了科技文献的自动翻译质量。这些研究工作发表在计算语言学领域的顶级会议ACL、EMNLP、COLING上,产生了一定的影响。我们基于这些技术开发了一个面向专利文献翻译的机器翻译系统,该系统已经大规模用于实际工作中,实现了300余万篇中国专利文献全文的翻译,用户评价的自动翻译正确率可以达到70%-85%。

结论摘要:

英文主题词Scientific literature translation; Statistical machine translation; Translation template; Domain adaptation;


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 17
  • 23
  • 6
  • 0
  • 0
相关项目
期刊论文 1 会议论文 11 专利 1
期刊论文 6 会议论文 2
期刊论文 3 会议论文 4
期刊论文 77 会议论文 94 专利 4 著作 2
期刊论文 10 会议论文 8 获奖 2
吕雅娟的项目