依存文法对于语序灵活的汉语来说具有良好的描写能力,然而"投影性原则"使得依存树基本等价于短语结构树,没有充分体现出表示方法和分析精度的优势。为了摆脱这一限制,满足后续语义分析等应用的需要,本课题提出了基于"依存图"的汉语依存分析方法,重点研究两大问题一是建立基于依存图的句法标注体系,给出基于原有树库的自动调整和转换方法,并研究与之相应的图搜索算法。另一方面,为了提高长句的分析精度和效率,引入浅层分析技术,使用组块分析捆绑短语使得句子扁平化,使用骨架分析识别长距离搭配以廓清句子结构;尝试用基于图的算法,将浅层分析和依存分析融合起来,最终给出实用的汉语依存图分析算法。
dependency parsing;neural networks;coordinate structure;deep learning;natural language processing
句法分析是自然语言处理的基础课题,直接影响着句子语义分析、舆情分析、智能问答、机器翻译等任务的质量。中文句法分析的研究起步较晚,虽也已建立了较大规模的树库,使用了与英语等其他语言相同的机器学习模型,但是中文句法分析的效果,无论是短语结构文法还是依存文法,始终与英语、德语、甚至起步相对较晚的阿拉伯语等语言有较大差距。提高中文句法分析的效果一直是学界和产业界的迫切需求。中文句法分析究竟是在文法体系上出现了问题,还是在模型算法上需要改进,都需要做出深入的研究和探索。本项目针对中文句子依存分析的关键问题进行了多方面的研究。首先,借助已有的中文依存树库和语义角色库,统计得出中文句子的语义角色难以通过依存树结构推导出来,进而明确了图结构在表示中文句子语义关系上的必要性。其次,建立了中文依存图的标注体系和语料库,分析出汉语中存在的非树结构。同时,从模型算法的层面做了两个方面的探索。研究了新兴的神经网络深度学习算法,应用于中文依存分析。我们比较了不同的词向量(Word Embedding)构建方法,基于SKIP、CBOW方法,发现相比简单上下文,使用依存关系能够更好地表征词语的语义。然后,我们将结构化神经网络模型应用于依存分析,使用对比学习方法,超过了现有的有指导方法的最好结果,接近半指导和词性句法分析一体化方法的结果。在系统实现上,通过多线程、硬编码、图栈等技术,使得句子分析的平均速度达到毫秒级,系统的模型文件也减少至1/10。最后,为了提高长句分析的精度和效率,重点研究了并列结构的自动识别算法,使用Word Embedding来计算两个并列成分之间的语义相似度和结构相似度,辅以邻接可靠度的计算,使得联合结构的F-score提高了十五个百分点。综上,本项目从理论的角度研究了图结构在依存分析中的必要性,初步建立了中文依存图语料库,在算法层面上使用深度学习技术,研究了词向量获取方法、结构化神经网络的依存分析技术、利用词向量提高联合结构识别效果,从而在整体上提高了中文依存分析的效果。