中文信息处理毋庸置疑地要使用汉语的语法性质。但是,长期以来,中文信息处理界所使用的汉语的语法体系基本上是从英语套用来的,是面向从事学习的人的,是面向结构分析的。为了提高汉语处理应用软件的性能,必须打破这一传统,彻底反思汉语处理的语言学基础,研究适合于汉语的、适合于计算机处理的、适合于邻接关系的文法,这就是我们要研究的汉语的线性文法。我们调查研究了当前大陆和台湾比较有影响的词类体系,调查了语言信息智能接口系统因统计数据稀疏而造成的性能缺陷,研究了这些系统和文本知识提取系统对于词语属性的需求,整理加工了一亿多字的大规模汉语小说语料库,研制了国内外第一个汉语生语料词语属性检索软件工具,改进扩充了通用分词系统的功能。在这些工作的基础上,作为一种原始创新,提出了基于属性的线性文法系统的初步设计。对这一文法体系的研究将开始重建计算机处理汉语的语言学基础,进而将带来应用软件性能的明显提高。
英文主题词Chinese information processing;Linear grammar;word attributes;