东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

维吾尔语词法中音变现象的自动还原模型

ISSN号：1003-0077
期刊名称：中文信息学报
时间：2012.1.1
页码：91-96
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]新疆大学信息科学与工程学院,新疆乌鲁木齐830046, [2]中国科学院计算技术研究所,北京100190
相关基金：新疆大学优秀博士创新项目基金资助; 国家自然科学基金资助项目（61063026）; 国家社会科学基金重点资助项目（10AYY006）; 新疆高校青年教师科研培养基金资助项目（XJEDU2010S07）; 国家工信部电子发展基金资助项目（工信部财（2009）453）
相关项目：基于短语的维汉统计机器翻译关键技术的研究

关键词：维吾尔语, 词法分析, 维吾尔语变音现象, Uyghur language, morphological analysis, Uyghur inflection

中文摘要：

该文针对维吾尔语的音变现象,提出了一种自动还原模型。与以往方法不同的是,此模型中我们把音变现象泛化,先假设维吾尔语中所有语音都有音变现象,从而将还原问题转化为类似于词性标注问题,再利用标注的方法解决了还原操作。在新疆多语种信息技术重点实验室手工标注的《维吾尔语百万词词法分析语料库》上做了实验,还原模块作为维吾尔语词法分析器的一部分,把词法分析器功能的F值从84.1%提高到了91.4%,同时维吾尔语中词缀数目最多、变形情况最复杂的动词词干的还原正确率也达到了88.6%,实际应用中完全可以被接受。

英文摘要：

We propose an automatic lemmatization model for Uyghur inflectional phenomenon.In contrast to previous methods,we generalize the inflection in Uyghur conceptually,and treat the lemmatization with the sequence tagging models,.Using the ＂Uyghur million word Part-of-Speech tagging corpus＂ as the training data,the proposed method improves the F value of lemmatization up to 91.4% from 84.1%,especially attaining an F value of 88.6% for Uyghur verbs which are rich in suffixes and complex.

同期刊论文项目