位置:成果数据库 > 期刊 > 期刊详情页
维吾尔语词法中音变现象的自动还原模型
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:2012.1.1
  • 页码:91-96
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046, [2]中国科学院计算技术研究所,北京100190
  • 相关基金:新疆大学优秀博士创新项目基金资助; 国家自然科学基金资助项目(61063026); 国家社会科学基金重点资助项目(10AYY006); 新疆高校青年教师科研培养基金资助项目(XJEDU2010S07); 国家工信部电子发展基金资助项目(工信部财(2009)453)
  • 相关项目:基于短语的维汉统计机器翻译关键技术的研究
中文摘要:

该文针对维吾尔语的音变现象,提出了一种自动还原模型。与以往方法不同的是,此模型中我们把音变现象泛化,先假设维吾尔语中所有语音都有音变现象,从而将还原问题转化为类似于词性标注问题,再利用标注的方法解决了还原操作。在新疆多语种信息技术重点实验室手工标注的《维吾尔语百万词词法分析语料库》上做了实验,还原模块作为维吾尔语词法分析器的一部分,把词法分析器功能的F值从84.1%提高到了91.4%,同时维吾尔语中词缀数目最多、变形情况最复杂的动词词干的还原正确率也达到了88.6%,实际应用中完全可以被接受。

英文摘要:

We propose an automatic lemmatization model for Uyghur inflectional phenomenon.In contrast to previous methods,we generalize the inflection in Uyghur conceptually,and treat the lemmatization with the sequence tagging models,.Using the "Uyghur million word Part-of-Speech tagging corpus" as the training data,the proposed method improves the F value of lemmatization up to 91.4% from 84.1%,especially attaining an F value of 88.6% for Uyghur verbs which are rich in suffixes and complex.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136