位置:成果数据库 > 期刊 > 期刊详情页
神经机器翻译系统在维吾尔语-汉语翻译中的性能对比
  • ISSN号:1000-0054
  • 期刊名称:《清华大学学报:自然科学版》
  • 时间:0
  • 分类:TP391.2[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:清华大学计算机科学与技术系、智能技术与系统国家重点实验室、清华信息科学与技术国家实验室(筹),北京100084
  • 相关基金:国家自然科学基金重点项目(61331013);国家“八六三”高技术项目(2015AA015407)
中文摘要:

基于深度学习的神经机器翻译已在多个语言对上显著超过传统的统计机器翻译,成为当前的主流机器翻译技术。该文从词粒度层面出发,对国际上具有影响力的6种神经机器翻译方法在维吾尔语-汉语翻译任务上进行了深入分析和比较,这6种方法分别是基于注意力机制(GroundHog),词表扩大(LV-groundhog),源语言和目标语言采用子词(subword-nmt)、字符与词混合(nmt.hybrid)、子词与字符(dl4mt-cdec)以及完全字符(dl4mt-c2c)方法。实验结果表明:源语言采用子词、目标语言采用字符的方法(dl4mtcdec)在维吾尔语-汉语神经机器翻译任务上性能最佳。该文不仅是首次将神经机器翻译方法应用到维吾尔语-汉语机器翻译任务上,也是首次将不同的神经机器翻译方法在同一语料库上进行了对比分析。该研究对维吾尔语-汉语机器翻译任务和神经机器翻译的进一步研究工作都具有重要的参考意义。

英文摘要:

The neural machine translation based on deep learning significantly surpasses the traditional statistical machine translation in many languages, and becomes the current mainstream machine translation technology. This paper compares six influential neural machine translation methods from the level of word granularity in the task of Uyghur-Chinese machine translation. These methods are attention mechanism (GroundHog), vocabulary expansion (LV-groundhog), source language and target language with subword units (subword-nmt), characters and words mixed (nmt. hybrid), subword units and characters (dl4mt cdec), and complete characters (dl4mt-c2c). The experimental results show that Uyghur Chinese neural machinetranslation performs best when the source language is segmented into subword units and the target language is represented by characters (dl4mt-cdee). This paper is the first to use neural machine translation for Uyghur Chinese machine translation and the first to compare different neural machine translation methods on the same corpus. This work is an important reference not only for Uyghur-Chinese machine translation, but also for general neural machine translation tasks.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《清华大学学报:自然科学版》
  • 中国科技核心期刊
  • 主管单位:教育部
  • 主办单位:清华大学
  • 主编:梁恩忠
  • 地址:北京市海淀区清华大学学研大厦B座908
  • 邮编:100084
  • 邮箱:xuebaost@tsinghua.edn.cn
  • 电话:010-62788108 62792976
  • 国际标准刊号:ISSN:1000-0054
  • 国内统一刊号:ISSN:11-2223/N
  • 邮发代号:2-90
  • 获奖情况:
  • 国家期刊奖,国家“双高”期刊,1992年以来,历次国家级和省部级一等奖,第一、二届全国优秀科技期刊一等奖,教育部优秀期...,第三届中国出版政府奖提名奖
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,美国应用力学评论,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:43470