前人在语法知识自动获取方面基于统计方法进行了许多探索和实验,已取得较大进展,但与语言学知识的融合相对较少;现有语法知识库多是语言学专家人工构建的,精度比自动获取的结果高,但是在覆盖度、扩展性、定量化等方面不如自动方法。本研究尝试将语言学知识与统计方法结合起来,基于自消歧结构从大规模语料库中自动获取语法知识。所谓自消歧结构指的是具有消解自身歧义能力的结构,比如含有"了"的结构可以确定出现在"了"前面的那个动词是谓语,而不会是定语。基于自消歧结构既可以实现词语小类(如名量词、动量词)的标注,也可以实现词语搭配的语法结构关系(如动宾、定中、主谓等)的自动标注。本研究将充分利用分层次、超大规模语料库以及人工构建的自消歧结构集合,获取词语搭配的实例以及频次信息,实现语法知识库的概率化和实例化;结合未登录词词类和语义类标注,实现语法知识库的辅助修正和编纂。
Self-disambiguating structure;grammatical knowledge;automatic acquisition;dependency parsing;treebank
本项目以自消歧模式为支点,以知识获取为中间目标,构建大规模词语搭配库和模式库,服务于中文分词、词性标注、句法分析和开放域关系抽取。首先,基于句法树库获取潜在歧义结构,对类型和分布进行统计分析,获取自消歧模式集,分别用于抽取主谓、动宾、动名定中和量名搭配。具体而言,基于自消歧模式从搜狗网页语料库中抽取搭配,构建两百万规模的词语搭配库,称之为“现代汉语词语搭配库”。后续实验工作表明该搭配库在句法分析和词语相似度计算上具有明显的应用价值。其次,我们注意到人类理解自然语言时的由易到难现象人在理解语言时,如果未登录词出现在熟悉语境中则较易理解,出现在陌生语境中则难以理解,前一种语境有助于对后者的理解;自动分析程序在理解语言时会碰到类似情况,如果未登录词出现的环境是训练数据中已有的则理解结果比较好,如果中训练数据中未出现或很少出现则理解结果比较差。基于这个事实,我们基于双向扩展算法迭代地抽取未登录词上下文模式和未登录词,进而将可信度较高的未登录词及其词性转换为特征,用于改进分词和词性标注系统的性能。第三,为了抽取知识的需要,我们构建现代汉语平衡语料库、历时新闻语料库,并标注了支持依存语法和短语结构语法两种视图的多视图树库。基于这些工作,新申报发明专利一项、获授权发明专利三项;在国内外期刊会议上发表论文17篇,其中CCF A类论文1篇,B类论文3篇,EI期刊论文4篇;所开发的“现代汉语词语搭配库”和“现代汉语平衡语料库”两项资源授权给5家企事业单位使用,获取经费15万元。