指代是自然语言中一种非常普遍和常见的语言现象, 指代消解是文本理解不可缺少的内容,它几乎是任何一个自然语言处理的应用领域都需要解决的问题。本课题的主要目标是研究基于机器学习的汉语共指消解方法。本课题从训练语料库的预处理、机器学习算法和模型的选择与设计、汉语指代知识库的自动学习等方面对汉语的共指消解问题进行了比较系统的研究。其中,在语料的预处理技术研究方面,提出了一种基于潜在语义分析技术和直推式谱图算法的文本分类方法和一种基于大间隔方法的汉语组块分析方法;在共指消解的学习模型设计方面,提出了基于图模型的全局共指消解算法,并首次应用一种新的统计学习模型—马尔科夫逻辑网络(MLN)解决共指消解问题。同时,为解决构建马尔科夫逻辑网络所需要的一阶逻辑知识库,我们将归纳逻辑编程(ILP)技术与马尔科夫逻辑网络相结合,设计与实现一种自动学习马尔科夫逻辑网络结构的共指消解算法。本课题中的研究成果可应用于信息抽取、机器翻译和问答系统等自然语言处理领域。
英文主题词Coreference resolution; Statistical learning model; Inductive logic programming; Correlation clustering