基于语义依存图的汉语复杂名词短语资源建设与自动分析研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

基于语义依存图的汉语复杂名词短语资源建设与自动分析研究

项目名称：基于语义依存图的汉语复杂名词短语资源建设与自动分析研究
项目类别：面上项目
批准号：61173095
申请代码：F020601
项目来源：国家自然科学基金
研究期限：2012-01-01-2015-12-31

项目负责人：萧国政
依托单位：武汉大学
批准年度：2011

中文摘要：

本项目旨在研究汉语复杂名词短语的语义依存结构，提出基于多标记有向图的表示机制，建设大规模标注资源并探讨基于区分性模型的分析策略。语义依存结构跳脱句法依存的限制，允许多父节点、边多标记和交叉依存。所建资源包含源于真实语料的8万复杂名词短语，所提区分性策略基于对数线性模型，其特征设计可刻划局部和全局性的结构化信息。本项目有助于探讨和阐清适合汉语实际的语义描写机制；丰富汉语自身的语义资源和语义分析策略；对提高汉语自动分析、信息抽取和机器翻译等技术的性能有一定意义。

中文主题词：复杂名词短语；语义依存；多标记有向图；；

英文摘要：

complex nominal phrases；multi-marked direct graph；semantic dependency structure；；

英文主题词： complex nominal phrases；multi-marked direct graph；semantic dependency structure；；

结论摘要：

本项目已建设完成8 万汉语复杂名词短语大规模语义依存结构描述资源，语料均来源于新闻语料。并在此基础上，针对复杂名词短语的内部结构特征，提出了基于多标记有向图的复杂名词短语内部语义关系的表示方法，探讨了基于简单边优先与 SVM 相结合的依存句法分析策略。该算法考虑了复杂名词短语的内部结构特征，在降低计算复杂度的同时，有效地保证了准确率。实验证明该算法能良好地应用于复杂名词短语的依存分析，且准确率和效率高于现有中文句法分析器。本项目对探索适合汉语真实文本实际的语义描写机制，丰富汉语人机共用的语义资源和语义分析策略，对提高汉语自动分析、信息抽取和机器翻译等技术的性能均有一定意义。

成果综合统计