句法制导的统计汉语句义分析方法研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

句法制导的统计汉语句义分析方法研究

项目名称：句法制导的统计汉语句义分析方法研究
项目类别：面上项目
批准号：60975054
申请代码：F030509
项目来源：国家自然科学基金
研究期限：2010-01-01-2012-12-31

项目负责人：常宝宝
负责人职称：副教授
依托单位：北京大学
批准年度：2009

中文摘要：

自然语言理解的核心是语义的理解，长期以来，缺乏健壮可靠的语义分析技术一直是制约各类自然语言处理应用系统性能提高的瓶颈之一。浅层句义分析主要着眼于提取句子中谓词与其他成分之间的语义关系，是现阶段句义分析研究的现实选择，目前典型的方法是将浅层句义分析视作一种后句法的非结构化分类问题，谓词论元以及谓词框架间所形成的结构关系在模型中不能很好的体现，同时也不易实现与句法分析的融合和集成。针对这些问题，在本项目中，我们提出了一种句法制导的统计汉语句义分析方法；并将结构化支持向量机模型用于浅层句义分析建模问题，以期更好地在模型中刻画浅层分析结果中所展现出的结构依存关系；基于句法制导机制，我们还提出了建立句法语义分析的一体化模型，以期在句法分析模型和句义分析模型互动的基础上综合提升二者的分析性能。

中文主题词：浅层句义分析；句法制导模型；语义组块；领域适应性；半指导学习

英文摘要：

shallow semantic parsing；syntax-directed model；semantic chunk；domain-adaptability；semi-supervised learning

英文主题词： shallow semantic parsing；syntax-directed model；semantic chunk；domain-adaptability；semi-supervised learning

结论摘要：

自然语言理解的核心是语义的理解，长期以来，缺乏健壮可靠的语义分析技术一直是制约各类自然语言处理应用系统性能提高的瓶颈之一。本项目主要围绕汉语浅层句义分析展开，重点研究下面6项内容并取得积极进展 (1) 提出了一种句法制导的浅层句义分析模型，该模型使得浅层句义分析具有更好的形式语义学基础，不同于目前所提出的其他浅层句义分析方法。 (2) 提出了一种基于语义组块的浅层句义分析方法，在词的基础上直接对语义角色进行识别和分类，获得了较高的准确率，并极大地节省了分析时间。 (3) 基于北大网库（NetBank）构建了一个语义角色分类系统，并将其与基于PropBank的语义角色分类系统的性能进行了对比，探讨了不同的语义标注体系对浅层句义分析方法的影响。 (4) 将半指导的机器学习技术用于汉语浅层句义分析，除了使用标注语料之外，还将未标注语料加入模型训练过程，弥补了标注语料在规模和领域覆盖方面的不足，改善了句义分析技术的领域推广能力。 (5) 对汉语分词模型的领域适应性进行了考察，汉语分词是汉语语义角色的前处理工作，分词性能对浅层句义分析的性能有着直接的影响，项目组通过引入多种统计量特征以及半指导学习技术，改善了分词性能和领域适应性。 (6) 构建了浅层句义分析软件和辅助语义角色标记和校对工具。对给定的句法分析树，浅层句义分析软件可以完成句子中谓词的语义角色。辅助语义角色标注软件则可以可视化的界面辅助人工完成语义角色标注任务。

成果综合统计