微阵列数据分析对寻找潜在功能基因、肿瘤诊断、新药研发及确定靶点等具有重要意义。由于微阵列数据通常具有小样本、大属性集特点,致使许多机器学习与模式识别方法难以处理此类问题。本项目基于粗集理论的粗糙边界原理及VC维理论,对超长方体概念类的样本复杂性及分类风险等问题进行研究,给出动态构造粗糙超长方体分类器的方法,以解决具有小样本特点的微阵列数据分类等问题。为进一步提高分类器的泛化能力,在基分类器的PAC可学习性及分类风险分析基础上,研究依据结构风险最小原理设计集成粗糙超长方体分类器的方法。通过本项目的开展,给出针对微阵列数据分析的粗糙超长方体分类方法,并为该方法的应用提供必要的理论依据。
Rough hypercuboid classifier;ensemble rough hypercuboid cla;confusion entropy;probabilistic confusion entrop;PAC learnability
小样本大属性集数据的分类分析问题,如生物微阵列数据分析,是近年来研究的热点问题之一。因受客观条件限制,小样本量问题有时难以得到解决。利用机器学习、模式识别等技术对该类数据进行分析面临着诸多挑战。在国家自然基金资助下,项目进行了以下研究工作 1.首先对基于粗集理论的超长方体分类方法进行了研究。对于分类而言,粗糙边界的大小体现了分类器区分不同类别对象能力的大小。为以小错误率进行分类,分类器应具有最小粗糙边界。为此提出了粗糙超长方体分类方法;针对大属性集问题,依据粗糙超长方体的性质,采用浮动搜索技术,动态选择不同属性,在保证精度前提下,使分类器的粗糙超长方体最小,从而保证其泛化能力;鉴于所构造分类器可能存在的归纳偏置问题,采用了分类器集成思想,通过训练多个单分类器,构造集成分类器; 2.基于集合理论的粗集运算过于严格,因此,粗糙超长方体分类方法难免对有噪声、有误差的数据敏感。为解决此问题,一条途径是基于变精度粗集构造粗糙超长体分类器,也可以采用概率论的方法对粗糙超长方体分类方法进行改进。本研究中,基于Bayes基本理论以及错误概率与粗糙边界的内在关系,对粗糙超长方体分类方法进行了推广,给出了基于最小Bayes错误概率的特征选择与分类器构造方法,并对基于最小错误概率的动态选取属性及构造分类器的算法进行了研究; 3.分类器性能评价方法有很多。已有学者指出,最传统也最广为使用的分类精度有不可弥补的缺陷。近年来,ROC分析及AUC分类器评价指标受到广泛关注与应用。但在用于对多类问题分类器性能评价时,也存在无法全面评估分类器性能的问题。而分类器评价问题在小样本大属性集情况时尤为重要。为此,提出了混淆熵分类器性能评价指标。该指标不仅考虑了分类精度,而且也可以评价分类器的类区分能力。为利用样本分类时的概率信息,进一步提出概率混淆熵的分类器评价指标。 4.分类器性能的理论分析,对其是否可以从数据对象中学习到正确的结论具有重要的作用。本研究基于PAC可近似正确学习理论基本框架,利用VC维理论,对粗糙超长方体分类器的样本复杂性加以分析,说明了其相对于有向分层无环神经网络具有更好的样本复杂性。 5.为对本研究所提出的分类器生成方法以及分类器评价方法的有效性进行验证,本研究基于公开的微阵列数据以及UCI机器学习数据,进行了必要的实验验证,实验结果表明本研究所给出的方法是有效的。