本课题研究汉语动词次范畴化的自动获取技术,次范畴化指一个句法范畴的进一步划分,动词的句法行为取决于它的次范畴化特性,该特性一般表示为次范畴化框架。研究内容主要包括汉语动词次范畴化现象的语言共性和个性、次范畴化框架的形式化定义、自动获取的算法和实现方式,以及次范畴化动词的语义关系等。语言次范畴化研究已成为自然语言处理领域新的研究热点,动词次范畴化信息是公认的词汇知识库的主要组成部分,而汉语动词次范畴化研究只限于格语法、配价语法、语义计算等理论方面和少量人工获取或规约性手写的动词功能规则,缺乏一致性和可计算性;只有自动或半自动获取才能突破这种空谈理论的局面;汉语动词次范畴化自动获取的研究对于构建科学的现代汉语语法体系,推动我国汉语信息自动处理技术的发展及其实用化进程,具有重大的理论和实践价值。
动词次范畴化信息反映了动词作谓词时所表现出来的不同句法特征的分布,是自然语言处理进一步发展所不可或缺的知识。次范畴化信息自动获取的两个关键问题是假设生成和假设检验。本项目主要从如下几个方面展开 1)分析汉语动词次范畴化的语言现象,给出以句法模式为主的汉语次范畴化信息的形式化描写规范,在内容和形式上基本保持了次范畴化规范与现有主要汉语处理工具。 2)基于最大似然估计提出一种动态估计最优经验阈值的汉语动词次范畴化基础类型假设检验方法。并通过自动获取方法,以少量手工分析工作为补充,构建起了汉语动词次范畴化基础类型集合和以次范畴化类型描述的句式转换集合。 3) 设计并完成了从大规模真实文本中自动获取汉语动词次范畴化信息的实验过程,实现了一个自动构建汉语动词次范畴化词汇知识库的系统原型。 4) 研究了以动词分类知识和句式转换知识为回退启发信息的获取性能改进技术,使得汉语动词次范畴化自动获取研究达到了76.94%的精确率和83.83%的召回率,取得了当前国内外同类研究的最好结果。