基于依存图的汉语依存分析技术研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

基于依存图的汉语依存分析技术研究

项目名称：基于依存图的汉语依存分析技术研究
项目类别：面上项目
批准号：61170181
申请代码：F020602
项目来源：国家自然科学基金
研究期限：2012-01-01-2015-12-31

项目负责人：陈家骏
依托单位：南京大学
批准年度：2011

中文摘要：

依存文法对于语序灵活的汉语来说具有良好的描写能力，然而"投影性原则"使得依存树基本等价于短语结构树，没有充分体现出表示方法和分析精度的优势。为了摆脱这一限制，满足后续语义分析等应用的需要，本课题提出了基于"依存图"的汉语依存分析方法，重点研究两大问题一是建立基于依存图的句法标注体系，给出基于原有树库的自动调整和转换方法，并研究与之相应的图搜索算法。另一方面，为了提高长句的分析精度和效率，引入浅层分析技术，使用组块分析捆绑短语使得句子扁平化，使用骨架分析识别长距离搭配以廓清句子结构；尝试用基于图的算法，将浅层分析和依存分析融合起来，最终给出实用的汉语依存图分析算法。

中文主题词：依存分析；神经网络；联合结构；深度学习；自然语言处理

英文摘要：

dependency parsing；neural networks；coordinate structure；deep learning；natural language processing

英文主题词： dependency parsing；neural networks；coordinate structure；deep learning；natural language processing

结论摘要：

句法分析是自然语言处理的基础课题，直接影响着句子语义分析、舆情分析、智能问答、机器翻译等任务的质量。中文句法分析的研究起步较晚，虽也已建立了较大规模的树库，使用了与英语等其他语言相同的机器学习模型，但是中文句法分析的效果，无论是短语结构文法还是依存文法，始终与英语、德语、甚至起步相对较晚的阿拉伯语等语言有较大差距。提高中文句法分析的效果一直是学界和产业界的迫切需求。中文句法分析究竟是在文法体系上出现了问题，还是在模型算法上需要改进，都需要做出深入的研究和探索。本项目针对中文句子依存分析的关键问题进行了多方面的研究。首先，借助已有的中文依存树库和语义角色库，统计得出中文句子的语义角色难以通过依存树结构推导出来，进而明确了图结构在表示中文句子语义关系上的必要性。其次，建立了中文依存图的标注体系和语料库，分析出汉语中存在的非树结构。同时，从模型算法的层面做了两个方面的探索。研究了新兴的神经网络深度学习算法，应用于中文依存分析。我们比较了不同的词向量（Word Embedding）构建方法，基于SKIP、CBOW方法，发现相比简单上下文，使用依存关系能够更好地表征词语的语义。然后，我们将结构化神经网络模型应用于依存分析，使用对比学习方法，超过了现有的有指导方法的最好结果，接近半指导和词性句法分析一体化方法的结果。在系统实现上，通过多线程、硬编码、图栈等技术，使得句子分析的平均速度达到毫秒级，系统的模型文件也减少至1/10。最后，为了提高长句分析的精度和效率，重点研究了并列结构的自动识别算法，使用Word Embedding来计算两个并列成分之间的语义相似度和结构相似度，辅以邻接可靠度的计算，使得联合结构的F-score提高了十五个百分点。综上，本项目从理论的角度研究了图结构在依存分析中的必要性，初步建立了中文依存图语料库，在算法层面上使用深度学习技术，研究了词向量获取方法、结构化神经网络的依存分析技术、利用词向量提高联合结构识别效果，从而在整体上提高了中文依存分析的效果。

成果综合统计