位置:成果数据库 > 期刊 > 期刊详情页
一种提高维吾尔语-汉语词语对齐的方法研究
  • ISSN号:1000-1220
  • 期刊名称:《小型微型计算机系统》
  • 时间:0
  • 分类:TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]新疆大学信息科学与工程学院,乌鲁木齐830046, [2]新疆多语种信息技术重点实验室,乌鲁木齐830046, [3]中国科学院计算技术研究所智能信息处理重点实验室,北京100190
  • 相关基金:国家自然科学基金项目(60663006)资助;国家自然科学基金重点项目(61032008)资助; 国家工信部电子发展基金项目(工信部财(2009)453)资助
中文摘要:

维吾尔语是典型的粘着性语言,其复杂的形态以及众多的词缀影响维吾尔语-汉语词语对齐的质量.本文提出对维吾尔语词进行形态分析并词干与词缀分离,再进行对齐;并根据维吾尔语遵循语音和谐规律的特点,对维吾尔语词缀的变体采用统一的表示方法,使得词缀呈现相同的形式.通过以上方法欲达到抑制维汉词语对齐中数据稀疏现象.本文利用此方法处理了新疆多语种信息技术重点实验室提供的维汉双语语料,再利用GIZA++进行对齐,试验结果表明,此方法对词语对齐效果起到了明显的积极作用,而且对维汉机器翻译的质量也有显著的提高.

英文摘要:

Uyghur is an agglutinative language and has vast number of affixes,which has great influence on Uyghur-Chinese word alignment result.To solve this problem,this article proposes a method:represent Uyghur words with their morphological segmentation and use symbolized affixes which classified on phonetic harmony substitute for original forms.After preprocessing with this method,we align Uyghur-Chinese sentences which offered by Xinjiang Multilanguage Key Laboratory with GIZA++.Experimental result shows that this method played an important role on alignment results and improved the performance of translation from Uyghur to Chinese.

同期刊论文项目
期刊论文 41 会议论文 33 获奖 5 著作 3
同项目期刊论文
期刊信息
  • 《小型微型计算机系统》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院沈阳计算技术研究所
  • 主编:林浒
  • 地址:沈阳市浑南新区南屏东路16号
  • 邮编:110168
  • 邮箱:xwjxt@sict.ac.cn
  • 电话:024-24696120 024-24696190-8870
  • 国际标准刊号:ISSN:1000-1220
  • 国内统一刊号:ISSN:21-1106/TP
  • 邮发代号:8-108
  • 获奖情况:
  • 中国自然科学核心期刊,中国科学引文数据库来源期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:23212