iPhone4S的SIRI语音系统把人工智能引入到现实生活,自然语言的机器理解受到越来越多的关注。在自然语言中,含有地名及空间关系的信息量占到全部信息量的70%-80%,由于中文语言及空间关系的复杂性,目前的研究方法无法很好的处理中文地名的识别及其空间关系的构建工作。本课题基于前期的研究基础,以中文文本环境下的地名为研究对象,通过分析地名的音、形、义特征及其所包含的地理性、区域性、历史性、社会性、民族性和语言性特点,探索地名在自然语言空间关系表达中的规律和作用,并以此规律为基础,结合隐马尔科夫模型构建中文地名的识别方法;提出基于地名的论元结构,强调地名在自然语言空间信息表达中的重要性,建立以地名驱动的中文文本空间关系构建模型;通过多专题地址数据的模型训练,获得适应多场景自然语言空间关系构建的模型参数。最后,通过大量的语料实验来验证该模型,从而为中文自然语言空间关系智能解析提供新的研究思路。
英文主题词toponym;Chinese toponym recognition;natural language spatial relationship;toponym argument structure;spatial relationship model