句法分析是自然语言处理的核心问题,对信息抽取、机器翻译等应用有重要的支撑作用。依存语法以其形式简洁、易于标注、便于应用等优点,逐渐受到重视。虽然目前汉语依存句法分析研究取得了一定的进展,但是其准确率和效率仍然不能满足实际应用的需要。本项目针对汉语的特点以及汉语句法分析的难点,面向实际应用,从下5个方面对汉语依存句法分析技术进行了研究1、对比了基于转移和图的模型在汉语上的性能;2、提出了基于柱搜索的高阶依存分析模型,并参加了CoNLL2009依存句法和语义分析联合评测,取得了第一名的成绩;3、探索了基于图和基于转移的融合模型,进一步提升了句法分析的准确率;4、提出了基于片段的两阶段汉语依存分析方法,大幅度提高了汉语句法分析效率;5、词性标注与句法分析的联合学习模型,一定程度上克服了汉语词性标注准确率低对句法分析的影响。项目负责人所在团队因其开发的"语言技术平台(LTP)"获钱伟长中文信息处理科学技术奖一等奖,其中汉语依存句法分析是该平台的核心系统,项目负责人本人也因此获汉王青年创新奖一等奖。
英文主题词dependency parsing; beam-search; CoNLL;