位置:成果数据库 > 期刊 > 期刊详情页
基于“松弛尺度”的短语翻译对抽取方法
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:0
  • 页码:91-95
  • 语言:中文
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学院自动化研究所模式识别国家重点实验室,北京100080, [2]诺基亚(中国)研究中心,北京100013
  • 相关基金:国家自然科学基金资助项目(60575043,60121302);国家863计划资助项目(2006AA012194);诺基亚(中国)研究中心合作项目的资助
  • 相关项目:基于话语理解的交互式口语翻译方法研究
中文摘要:

短语对抽取是基于短语统计机器翻译方法的关键技术。当前广泛使用的Och提出的短语对抽取方法,过于依赖词对齐结果,因而只能抽取与词对齐完全相容的短语对。本文给出一种基于“松弛尺度”的短语抽取方法,对不能完全相容的短语对,结合词性标注信息和词典信息来判断是否进行抽取,放松“完全相容”的限制,可以保证为更多的源短语找到目标短语。实验表明,该抽取方法的性能比Och的方法有明显的改善和提高。

英文摘要:

The phrase translation pair extractions is one of the key techniques in the Phrase-based Statistical Machine Translation. Och's phrase extraction method heavily depends on word alignments, so only the phrase pairs which are fully consistent with the word alignments are extracted. This paper proposes a method of phrase pair extraction with a flexible scale. This method can extract those phrase alignments which Och's method can not obtained. The flexible scale is based on the two features: POS and dictionary information. Our experiments have shown that our method outperforms Och's method significantly.

同期刊论文项目
期刊论文 155 会议论文 74 著作 5
期刊论文 6 会议论文 15 获奖 1 专利 3 著作 1
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136