位置:成果数据库 > 期刊 > 期刊详情页
基于N元模型的维吾尔语词性标注实验研究
  • ISSN号:1002-8331
  • 期刊名称:计算机工程与应用
  • 时间:0
  • 页码:137-140
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]华北电力大学,北京102206, [2]新疆电力信息通信有限责任公司,乌鲁木齐830026, [3]新疆信息产业有限责任公司,乌鲁木齐830026, [4]新疆大学信息科学与工程学院,乌鲁木齐830046
  • 相关基金:国家电子信息产业发展基金(文号:财建[2009]537,工信部财[20091453);国家自然科学基金(N0.60963018,No.61063026);国家教育部项目(No.MZ115-75);新疆维吾尔自治区高新技术项目(No.200712109);新疆维吾尔自治区高校项目(No.XJEDU2008108);新疆多语种信息技术重点实验室开放课题.
  • 相关项目:现代维吾尔语句法分析关键技术的研究
中文摘要:

词性标注有很多不同的研究方法,目前的维吾尔语词性标注方法都以基于规则的方法为主,其准确程度尚不能完全令人满意。在大规模人工标注的语料库的基础之上,研究了基于Ⅳ元语言模型的维吾尔语词性自动标注的方法,分析了N元语言模型参数的选取以及数据平滑,比较了二元、三元文法模型对维吾尔语词性标注的效率;研究了标注集和训练语料规模对词性标注正确率的影响。实验结果表明,用该方法对维吾尔语进行词性标注有良好的效果。

英文摘要:

There are many approaches to the problem of part-of-speech tagging, current Uyghur part-of-speech tag- ging is mainly based on rule based methods and does not achieve the state-of-art accuracy. A large scale of manually annotated Uyghur corpus and a number of well-conducted experiments are used to identify the efficiency of N-gram based part-of-speech tagging scheme for Uyghur texts. The N-gram language model parameters and data smoothing are analyzed, and the efficiency of Bigram and Trigram models are compared. The impacts of tag sets and size of training data on tagging accuracy are studied. The experiments show that N-gram based part-of-speech tagging for Uyghur texts has achieved good results.

同期刊论文项目
期刊论文 11 会议论文 3 获奖 2
同项目期刊论文
期刊信息
  • 《计算机工程与应用》
  • 北大核心期刊(2014版)
  • 主管单位:中国电子科技集团公司
  • 主办单位:华北计算技术研究所
  • 主编:怀进鹏
  • 地址:北京市海淀区北四环中路211号北京619信箱26分箱
  • 邮编:100083
  • 邮箱:ceaj@vip.163.com
  • 电话:
  • 国际标准刊号:ISSN:1002-8331
  • 国内统一刊号:ISSN:11-2127/TP
  • 邮发代号:82-605
  • 获奖情况:
  • 1. 2012年首批获得中国学术文献评价中心发布的 “...,2. 2001年获得新闻出版署“中国期刊方阵双效期刊”,3. 2008年首批入选国家科技部“中国精品科技期刊...,4.2003年-2011年连续获得工业和信息化部期刊最高...
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:97887