文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术。文本自动分类的主要困难之一是特征空间的维数很高,为此特征选择是文本分类中的一个非常重要的步骤。在文本分类中,存在多个特征选择算法,而对这些特征选择算法的分析基本上是使用实验的手段,缺乏理论分析,本项目首先提出一种对特征选择算法进行形式化分析的方法,寻找特征选择算法需要满足的基本约束,在这组基本约束的基础上,构造高性能特征选择函数的通用方法;其次,由于已有的实验证明在不同的语料集(不同的数据分布)上,同一个特征选择方法表现出不同的性能,因此本项目提出鲁棒的特征选择方法是关于数据分布的一个函数,即,特征选择方法是由数据驱动的,从而提出数据驱动的特征选择方法。概括来说,本项目研究数据驱动的形式化特征选择方法。本项目的研究面对的是文本分类的核心问题,具有重要的研究价值,也具有广阔的应用前景。