位置:立项数据库 > 立项详情页
维吾尔语语素结构规则及其应用研究
  • 项目名称:维吾尔语语素结构规则及其应用研究
  • 项目类别:地区科学基金项目
  • 批准号:61163032
  • 申请代码:F020606
  • 项目来源:国家自然科学基金
  • 研究期限:2012-01-01-2015-12-31
  • 项目负责人:艾克白尔·帕塔尔
  • 依托单位:新疆大学
  • 批准年度:2011
中文摘要:

项目组将独立创建基于语素规律(语音规律、词法规律、句法规律)的统计模型和训练算法,实现适合粘性语言特点的关键性的处理算法,并在实际应用中验证和完善。实现高准确率的词性自动标注系统,文字校对系统。项目组将重点研究基于最大熵和CRF框架的算法的设计、维语独特的语言特征参数收集、归纳、检验,和基于SVM机的聚类算法实现和词性自动标注等内容。将维吾尔语语素规则的特征化分析方法分成三个主要研究任务进行词的语素规律分析、词性标注、层次化统计分析。本项目的目的在于解决我国少数民族(特别是黏着语言)自然语言研究中的一大瓶颈。引入语素结构分析方法,对维语等粘性语言中非常有效。用小的训练语料库可以获得高的覆盖率,有效解决数据稀疏问题,提高了效率和模型的性能,更适合于非主流语言的自然语言处理研究工作。

结论摘要:

本项目在丰富和完善纯文本语料库的基础上,首先通过人工标注方式准备了所需要的词素标注语料库和词性标注语料库。其次,分别研究了基于规则的、统计模型的、音节结构特征的、词素概率分布特性的等多种词素自动切分算法。研究结果表明,融合多策略的词素切分效果为最好,其切分准确度达到了97%以上。而后,为了词素切分的对象从原来的词语转移到词组或语义词串上,在语义串特征提取和切分算法上开展了一些研究。可见,语素结构分析和自动切分领域存在着很大的探索和提升空间。最后,在此词素切分效果基础上,还开展了它在文字(词语)校对、词性标注、语音合成,以及语音识别等方面的应用研究,初步获得了较好的应用效果,完成了相应工具软件和资源的著作权登记任务。这些研究成果不仅直接应用于维吾尔自然语言处理的各个领域,还将为开展隶属阿尔泰语系的其它语言,特别是“一带一路”上的其它语言中开展形态分析奠定了基础,存在着巨大的理论和实用参考价值。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 22
  • 6
  • 0
  • 0
  • 0
相关项目
期刊论文 11 会议论文 3 获奖 2
艾克白尔·帕塔尔的项目