本项目旨在研究面向语义的汉语特征结构,建立基于特征结构的短语级和句子级的语义资源并探讨基于判别模型的特征结构分析策略。特征结构是根据汉语自身特点而提出的一种语义描写机制,它是由实体、特征和特征值组成的三元组的集合。所建立的资源包含6万个复合名词短语和6万个句子的特征结构。对于特征结构的自动分析,我们把它转换为关联树的分析问题,并利用无向图的最大生成树的分析策略,同时设计丰富的特征空间,以刻划全局性的结构化信息,从而避免依靠局部上下文进行判断所引起的问题。本项目有助于探讨和阐清适合汉语实际的语义描写机制;丰富汉语自身的语义资源及探索有效的汉语语义分析策略。对提高汉语自动分析、信息抽取和问题解答等技术的性能具有一定的意义。我们分别在汽车领域舆情分析系统、电信领域客户反馈分析系统和安全领域敏感信息分析系统中应用特征结构的分析,并取得了较好的效果。
英文主题词Feature structure, Semantic resource, Features, Discriminative model, Event extraction