位置:成果数据库 > 期刊 > 期刊详情页
统计机器翻译中多分词结果的融合
  • 期刊名称:中文信息学报
  • 时间:0
  • 页码:104-109
  • 语言:中文
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]哈尔滨工业大学教育部—微软语言语音重点实验室,黑龙江哈尔滨150001
  • 相关基金:基金项目:国家自然科学基金资助项目(60736014);国家863计划资助项目(2006AA010108)
  • 相关项目:融合语言知识与统计模型的机器翻译方法研究
中文摘要:

汉英统计机器翻译中,汉语语料通常需要使用中文分词将句子切分成词序列。然而中文分词不是为统计机器翻译而开发的技术,它的分词结果不能保证对统计机器翻译的优化。近些年,一些研究试图改进中文分词方法从而达到对统计机器翻译的优化。在该文中,从另外的角度研究中文分词对统计机器翻译的影响。基本思想是利用多分词结果作为额外的语言知识,提出一种简单而有效的方法使这些知识为统计机器翻译所用,使用了一系列策略融合多分词结果,并将融合结果应用在统计机器翻译系统中。实验结果表明这种方法比没有使用多分词结果融合的系统提高1.89个BLEU分数。

英文摘要:

In Chinese-English statistical machine translation (SMT), Chinese texts usually demands Chinese word segmentation (CWS) to identify the words in a sentence. However, CWS is not developed for SMT and hence its results are not necessarily optimal for SMT. In recent years, many investigations have been performed concerning making CWS suitable for SMT, but we explore it from another direction. In this paper, our basic idea is to use multiple CWS results as additional language knowledge source and we present a simple and effective approach to use multiple CWS results for SMT. We also give experiment results over a series of combining strategy, and the best result shows 1.89 percentage gain in BLEU points over a start-of-the-art SMT system.

同期刊论文项目
期刊论文 77 会议论文 94 专利 4 著作 2
同项目期刊论文