搭配作为描述词间组合能力的一种重要的词汇知识,在自然语言处理各个应用领域的研究中,包括汉语自动分析、汉外机器翻译、信息抽取和文本检索等,都发挥了重要作用。本项研究主要探索运用汉语自动句法分析和语料库统计技术,从大规模真实文本中自动发现汉语动词的词汇搭配和语法搭配组合,构建大规模的汉语动词搭配知识库。经过三年的努力,我们主要取得了以下研究成果 1)提出了一套分层次的汉语部分句法信息描述体系,开发完成了不同层次的部分句法信息标注语料库,其中200万汉字的功能语块库在标注规模和信息容量上处于国际领先水平。 2)探索了不同层次的汉语部分分析技术,在基本短语层次取得了较好的实验效果。 3)开发了一套有效的汉语词汇搭配自动获取算法,从6个月的人民日报标注语料库中获取形成了包含50多万搭配词对的汉语动词词汇搭配库。 4)通过知识融合实验,初步形成了包含1万多个记录项的比较完整的汉语动词语法搭配模板描述知识库。 在此基础上对搭配知识获取问题进行更深入的探索,可以将句法语义分析有机结合起来,逐步建立起比较完整的汉语动词句法、词汇、语义描述知识库。
英文主题词lexical collocation; grammatical collocation; partial parsing; corpus annotation; knowledge acquisition