语言元素的非齐次属性是指语言元素在语料中出现的位置和范围信息及其特点,是自然语言中的普遍现象,是自然语言语法、语义规律的一种间接体现;针对某些自然语言处理的实验表明对非齐次属性规律的充分利用可以有效提高处理精度。本研究基于面向大规模真实语言环境的自然语言处理系统,以当前自然语言处理中的主流统计模型为考察对象,以概率论和信息论为理论基础,研究语言元素的非齐次属性及其作用规律,包括非齐次属性的量化表示方法和统计规律分析;非齐次概率统计模型的基本理论;非齐次概率模型的特征表示、抽取和组合优化;非齐次概率模型的理论评价标准等。在对特定模型齐次化的基础上总结适合非齐次概率建模的通用原则和基本方法,以期对词性标注、句法分析等各层次的自然语言分析以及语音识别、音字转换、信息检索、机器翻译、信息抽取、自动文摘等自然语言处理应用的性能提高起到普遍促进作用。
英文主题词natural language processing;language element;non-stationary property;probability model