语义依存图是进行深层次语义分析的一种语言模型。汉语框架语义依存图是基于汉语框架网对汉语句子语义结构的一种形式化表示,提取一个句子的框架语义依存图就意味着抽取了这个句子的语义骨架。汉语框架语义依存图自动抽取技术研究在国内外尚属首次。本项目基于山西大学的汉语框架网工程,研究面向汉语句子深层语义理解的框架语义依存图自动抽取关键技术,研究内容包括(1)汉语框架语义依存图的表示,并建立汉语框架语义依存图的标注规范;(2)顶层目标词的识别及目标词所属框架的选择;(3)框架元素语义角色及语义关系的自动标注;(4)零形式核心框架元素的识别和自动填充;(5)建立面向汉语框架语义依存图提取的标注语料库,研发一个汉语框架语义依存图自动抽取工具软件。本项目的研究成果将为实现汉语句子语义的深层次理解提供新的途径,为基于汉语框架网的篇章事件推理奠定基础,对自然语言处理相关领域的研究有着重要的理论意义和应用价值。
Chinese FrameNet;Semantic parsing;frame dependency graph;semantic labeling;
语义分析是自然语言处理领域最重要也是最为困难的问题。目前针对汉语的语义分析研究主要集中在字、词以及浅层句法语义分析阶段,难以满足许多应用领域中更深入的语义分析需求。因此如何选择适合于汉语的语义分析路线,获得更深入、准确的语义分析效果是目前汉语语义分析所面临的关键问题。 本项目针对汉语句子的语义结构表示问题,提出了句子的框架语义依存图模型,系统地研究了框架语义依存图自动抽取的关键技术。项目开展以来,课题组按照合同计划实施,超额完成了原定合同任务。项目的研究结果与关键数据包括(1)建立了句子的框架语义依存图模型,包括句子的单框架语义依存图、核心框架语义依存图及完全框架语义依存图的表示及规范;(2)构建了面向框架语义依存图抽取中各项任务的标注语料,包括CFN三库补充,针对框架排歧、目标词识别、框架元素核心词提取、框架元素标注以及零形式识别任务的语料库;(3)实现了基于最大熵模型及相似度方法的未登录目标词识别,并获得了94.17%的识别准确率;建立了基于依存特征以及特征自动选取的框架排歧方法,并最终获得了81.46%的排歧准确率;(4)实现了基于依存特征的框架元素自动标注模型,获得了65%左右的标注F值;建立了框架元素语义核心成分提取规则以及机器学习模型,最终针对简单型与复合型的框架元素语义核心词识别准确率分别达到了97.34%与94.03%;(5)建立了零形式框架元素识别与分类的规则集与模型;在国际评测语料中,零形式检测与分类的F值分别为74.5%、50%,优于目前最好的评测结果。(6)探索了基于框架语义分析的句子语义相似度计算、文本蕴含及文本摘要等应用研究。 项目的研究成果为实现汉语句子的语义理解提供了一条有效途径,对自然语言处理相关领域的研究有着重要的理论意义和应用价值。