本项目是在语言学理论、统计学理论和计算语言学理论基础上,研究如何构造面向自然语言处理的现代维吾尔语短语信息库,预期提供一个规模适中的词语搭配或短语词汇化知识的信息库。该项目将采用计算语言学和统计学等结合的方法,研究用最优化的手段,全面、准确、规范建设短语知识的信息库。无论是对维吾尔语语言教学还是维吾尔语自然语言处理,词语搭配或词汇化短语的知识都是十分重要的资源。为了使之胜任处理大规模真实文本的任务,建立一个大规模的维吾尔语短语信息库的工作是十分必要的。该信息库建成之后,除了应用在语言理解、语言生成和机器翻译领域之外,还可以应用在信息检索、文本自动分类、自动文摘、维吾尔语自动校对和维吾尔语语句输入等应用领域。对提高少数民族的科学文化水平、信息处理的理论研究与实际应用都具有重大意义。
由于维吾尔语是语法和语义粘接性语言,只靠语法理论不能解决短语分析问题。为了提高维吾尔语语言信息处理系统的水平,使之胜任处理大规模真实文本的任务,利用语法与语义结合方法,以项目(60163002)的研究成果为依据,根据维吾尔语特点和采用语言学与计算语言学结合方法,分析维吾尔语短语方面的知识,从中总结归纳出若干规则和特殊处理规则,利用人机处理方法。利用语法与语义结合方法对维语词汇制定词汇标注标准和短语标注标准;对维语机器词典的词汇语义分类,并6万多条词根和词尾记录属性确定;定义短语词类、短语结构、短语规则、短语信息库的结构,为构造符合维语短语信息库提供新的技术与方法;确定加工处理系统的逻辑结构、信息库的结构、存取算法;研制由词典自动维护子系统、短语统计子系统、短语规则形成子系统、短语分析子系统和短语标注子系统等组成的现代维语短语标注系统;400万词汇的文本作为系统功能验证对象,保证系统功能的完整性,建立一定规模的信息库。以上成果是面向自然语言理解、文本分析、机器翻译等智能信息处理领域的进一步研究,为建立现代维语知识库打下良好基础。提高新疆经济、科技发展,提高信息处理的理论水平和实际应用都。