位置:成果数据库 > 期刊 > 期刊详情页
维吾尔语不同词尾粒度对维汉词对齐的影响
  • ISSN号:1000-7024
  • 期刊名称:《计算机工程与设计》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]新疆大学教务处,新疆乌鲁木齐830046, [2]新疆大学信息科学与工程学院,新疆乌鲁木齐830046
  • 相关基金:国家自然科学基金项目(61262061);自治区科技计划基金项目(201423120)
中文摘要:

维吾尔语中,词的复杂形态是导致数据稀疏问题的主要原因,为降低数据稀疏对词对齐和机器翻译的不良影响,尽可能挖掘词尾携带的语义信息,提出对词尾采取“分离一丢弃”方案。根据统计分析,对维吾尔语词进行词干、词尾分离后,对其语义信息被明文翻译概率高的词尾采取“分离”方案,概率低的词尾采取“丢弃”方案。将该方案应用到维吾尔语名词和动词上,分等级构造9种模板进行实验,实验结果表明,该方案抑制了词千、词尾分离带来的句子长度过长问题,增加了维汉词对的数量,提高了维汉机器翻译质量,验证了该方案的有效性。

英文摘要:

The main reason leads to data sparseness is rich morphological forms of words in Uyghur. To reduce the negative effects of data sparseness on Uyghur-Chinese word alignment and machine translation, a separating-dropping method was presen- ted. According to the statistical analysis, the affixes with highly translated probability were separated from stem and the affixes with lower translated probability were dropped. This method was applied to two main word classes including noun and verb in Uyghur, and 9 models were constructed for experiments. Results of experiments show the proposed method controls the length of the sentence caused by separating stem and affixes, the number of Uyghur-Chinese word pairs is increased, the quality of Uy- ghur-Chinese machine translation is improved, and the efficiency of this method is verified.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机工程与设计》
  • 北大核心期刊(2011版)
  • 主管单位:中国航天科工集团
  • 主办单位:中国航天科工集团二院706所
  • 主编:汤铭瑞
  • 地址:北京142信箱37分箱
  • 邮编:100854
  • 邮箱:ced@china-ced.com
  • 电话:010-68389884
  • 国际标准刊号:ISSN:1000-7024
  • 国内统一刊号:ISSN:11-1775/TP
  • 邮发代号:82-425
  • 获奖情况:
  • 中国科学引文数据库来源期刊,中国学术期刊综合评价数据库来源期刊,中国科技论文统计与分析用期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:45616