句法分析是自然语言处理中的关键技术之一,其基本任务是确定句子的句法结构。因此,在自然语言处理领域中,句法分析技术始终是众多专家关注的问题。目前在国内外的众多研究者已对句法分析技术展开了深入研究,提出了很多算法、模型,取得了很大的突破。迄今为止,还没有学者针对现代维吾尔语句法分析技术展开任何系统地研究工作,句法分析技术便成为了制约维吾尔文信息处理进一步发展的瓶颈。本项目对现代维吾尔语的句法结构进行研究,制定现代维吾尔语句法树库标注体系,采用规则、统计和机器学习等方法对浅层句法分析、完全句法分析、规则与统计融合的句法分析、浅层句法分析与完全句法分析相结合的句法分析等展开深入研究,为进一步研究汉维机器翻译、问答系统等奠定基础。通过本项目构建1.5句规模的维吾尔语句法树库,维吾尔语短语产生式规则库,研发维吾尔语句法分析系统和树库构建系统。
Uyghur;treebank;tag set;parsing;morphological analyze
句法分析是自然语言处理中的关键技术之一,其基本任务是确定句子的句法结构,是实现具体目标的重要环节。维吾尔语句法分析技术已经成为了制约维吾尔文信息处理进一步发展的瓶颈。通过本项目的实施,完成了维吾尔文句法树库规范的制定,收集与整理了1000多篇政府文献、18个月的新疆维吾尔自治区电视台新闻联播维吾尔文语料库、维吾尔文出版物语料库300部,语料库句子数量达到了25万句。为了保证标注语料库的均衡性,研究与实现了维吾尔文文本分类算法和句子相似度算法。利用文本分类和相似度算法选出了5万句子,目前完成了2万句子的标注,标注采用本项目制定的维吾尔文功能语块标记和成分标记集。设计与实现了集成句子边界识别、词性标注、词干提取的维吾尔语句法树库构建系统。本项目中,研究与实现了基于线图算法的维吾尔语句法分析器、基于 GLR 算法的维吾尔语句法分析器、基于CRF的维吾尔语组块分析器、 基于 PCFG 的句法分析器和基于 CRF 的句法分析器。在项目实施过程中,为了减少词法分析阶段的错误蔓延对句法分析的影响,对维吾尔文词性标注和词干提取进行了研究,研究与实现了基于混合策略的词干提取和词性标注系统。本项目研究过程中,发表了相关论文9篇,申请了软件著作权2项,培养了1名博士后、1名博士、4名硕士,在站博士后1名,在读博士生2名,在读硕士1名,主持人博士毕业论文《维吾尔语词法句法分析关键技术的研究》获得新疆维吾尔自治区2010年度优秀博士毕业论文。本项目所构建的语料库、词性标注、词干提取、组块分析等技术提供给新疆多语种信息技术重点实验室其他研究项目使用及中科院计算所等单位。