汉语的关联结构(由连词构成的复句)包含着丰富而复杂的语义信息。长期以来中文信息处理比较专注于单句的表示和分析,复句的建模和分析处于较忽略的地位。本项目旨在建立一个完整的汉语关联词语本体,研究关联结构的语义依存结构,提出基于语义依存图(有向图)的表示机制,建设大规模标注资源并探讨基于判别性模型的分析策略。语义依存结构跳脱句法依存的限制,允许多父节点和交叉依存。所建资源包含一个汉语关联词语本体和2万个从真实语料中选取的例句,基于对数线性的二阶段区分性分析模型用以分析关联结构的语义依存,其特征设计可刻划局部和全局性的结构化信息。本项目有助于探讨适合汉语实际特点的语义描写机制,丰富汉语语义资源和语义分析策略,对提高汉语自动分析、文本蕴含、信息抽取和篇章理解等技术的性能有一定意义。
英文主题词Connectives structure;semantic dependency;semantic resource;discriminative model;