位置:成果数据库 > 期刊 > 期刊详情页
基于双语句对覆盖度的维汉机器翻译语料选取技术
  • ISSN号:0253-2778
  • 期刊名称:《中国科学技术大学学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学院新疆理化技术研究所,新疆乌鲁木齐830011, [2]新疆民族语音语言信息处理重点实验室,新疆乌鲁木齐830011, [3]中国科学院大学,北京100049
  • 相关基金:国家自然科学基金(61473001,71071045,71131002)资助.
中文摘要:

在进行语料的选取时,语料中的冗余信息包括词汇和句子层面的冗余.目前的方法主要集中在词汇层次的语料覆盖度进行选取,这种方法可以有效地降低词或者短语的信息冗余,但是没有考虑句子层次的覆盖度.为了从大规模的双语语料中选取较小规模的训练语料,得到与大规模训练相同甚至更优的翻译系统,基于双语句对覆盖度进行平行语料的选取,提出一种将unseen n-grams和编辑距离相结合进行语料的选取的方法.实验结果表明,该方法可以在使用较少训练语料的情况下,得到与原始训练翻译效果相同的翻译系统.

英文摘要:

When making the selection of corpora, information includes not only redundancy at the vocabulary level but also redundancy at the sentential level. Present methods for this purpose are mainly focused on selecting corpora at the vocabulary level of coverage. These methods can effectively reduce the redundancy of words and phrases, but does not take into account the level of sentence coverage. Aiming at selecting a smaller training corpus from large-scale bilingual corpus, in order to get a the same or better translation system than the mass training data, the corpus from sentence coverage was mainly selected, by combining unseen n-grams method and edit distance. The experimental results show that the proposed method uses less training corpus, but still achieves almost equivalent performance compared with the original training corpus.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中国科学技术大学学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国科学技术大学
  • 主编:何多慧
  • 地址:安徽省合肥市金寨路96号
  • 邮编:230026
  • 邮箱:JUST@USTC.EDU.CN
  • 电话:0551-63601961 63607694
  • 国际标准刊号:ISSN:0253-2778
  • 国内统一刊号:ISSN:34-1054/N
  • 邮发代号:26-31
  • 获奖情况:
  • 1999年,全国优秀高等学校自然科学学报及教育部优...,2001年,安徽省1999-2001年度优秀科技期刊一等奖,2002年,第三届华东地区优秀期刊奖
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:8237