位置:成果数据库 > 期刊 > 期刊详情页
基于短语相似度的统计机器翻译模型
  • 期刊名称:高技术通讯
  • 时间:0
  • 页码:337-341
  • 语言:中文
  • 分类:TP391.2[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术] TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]中国科学院计算技术研究所中国科学院智能信息处理重点实验室,北京100190, [2]中国科学院研究生院,北京100049
  • 相关基金:863计划(2006AA010108)和国家自然科学基金(60573188,60603095,60736014)资助项目.
  • 相关项目:融合语言知识与统计模型的机器翻译方法研究
中文摘要:

针对基于短语的统计机器翻译(SMT)模型中由于采用精确匹配策略导致的短语稀疏问题,提出了一种基于短语相似度的统计机器翻译模型。该模型将基于实例的翻译方法引入到统计机器翻译中。翻译时,对于训练语料库中未出现过的短语,通过计算源语言短语之间的相似度,采用模糊匹配策略从短语表中查找相似的实例短语,并根据实例短语为其构造翻译。与精确匹配策略相比,利用相似度进行模糊匹配增加了对短语表的利用程度,缓解了短语稀疏问题。实验表明,该模型能够明显地提高统计机器翻译的质量。效果超过了当前最好的短语系统“摩西(Moses)”。

英文摘要:

In consideration of the phrase sparseness problem caused by the exact matching strategy in phrase-based statistical machine translation (SMT) models, the paper presents a phrase similarity-based SMT model. The model introduces the example-based method into SMT. During decoding, when facing source phrases which do not appear in the training corpus, the model firstly computes the similarity between source phrases and finds similar examples from the phrase table by fuzzy matching. Then the model produces translations for these source phrases according to the examples. Compared to the exact matching strategy, fuzzy matching can increase the utilization rate of the phrase table, and to some extent, solves the problem of phrase sparseness. The experiments show that the phrase similarity-based model outperforms the state-of-the-art phrase-based SMT system "Moses" and achieves significant improvements.

同期刊论文项目
期刊论文 77 会议论文 94 专利 4 著作 2
同项目期刊论文