位置:成果数据库 > 期刊 > 期刊详情页
基于中心语块扩展的短语对齐
  • ISSN号:1000-1239
  • 期刊名称:《计算机研究与发展》
  • 时间:0
  • 分类:TP391.2[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]哈尔滨工业大学计算机科学与技术学院语言语音教育部-微软重点实验室,哈尔滨150001
  • 相关基金:国家“八六三”高技术研究发展计划基金项目(2002AA117010-09);国家自然科学基金重点项目(60435020)
中文摘要:

短语等价对在词典编纂、机器翻译和跨语言信息检索中有着广泛的应用.提出了一种新的短语对齐方法,使用可信度较高的词典对齐结果来抽取源语言短语的译文中心语块,依据译文扩展可信度来确定源语言短语的译文统计边界.从译文中心语块出发,结合译文统计边界生成源语言短语的所有候选译文.对候选译文进行评价,从中选出最可靠的译文.同时利用贪心算法消除源语言短语译文边界之间的交叉冲突.实验结果表明,所提出的方法在开放测试中其正确率达到了82.76%,性能好于其他方法.

英文摘要:

Phrase equivalence pair is very useful for bilingual lexicography, machine translation and crossing-language information retrieval. In this paper, a new method of phrase alignment is proposed, where translation head-phrase is obtained according to dictionary-based word alignment which is very reliable, and statistical translation boundary is determined based on the translation extending reliability. All candidate translations of source language phrase are extracted by combining translation head-phrase with statistical translation boundary. A linear combination model is applied to evaluate all candidate translations of source language phrase and the most probable one is selected. At the same time, a greedy algorithm is used to eliminate the crossing-conflicts between translation boundaries of source language phrases. Experimental results show that the new method achieves 82.76% at precision, which is better than other approaches in open test.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机研究与发展》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院计算技术研究所
  • 主编:徐志伟
  • 地址:北京市科学院南路6号中科院计算所
  • 邮编:100190
  • 邮箱:crad@ict.ac.cn
  • 电话:010-62620696 62600350
  • 国际标准刊号:ISSN:1000-1239
  • 国内统一刊号:ISSN:11-1777/TP
  • 邮发代号:2-654
  • 获奖情况:
  • 2001-2007百种中国杰出学术期刊,2008中国精品科...,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:40349