获取泛化能力强的分类器是解决模式分类问题的主要目标。但实际中的高维小样本数据会引起Hughes 现象,导致传统分类算法中的参数估计偏差过大,在训练过程中产生"过学习",使得得到的分类器有偏或不稳定,泛化能力差。集成学习用多个基分类器解决同一问题,在提高单个分类器的泛化能力和稳定性方面优势显著,具有解决高维小样本分类问题的潜力。本项目将采用降维技术与集成学习相结合和特征空间自动划分的方法,有效利用高维特征提供的判别信息,结合基分类器之间的好坏多样性及数理统计领域的知识,构造能有效克服数据小样本性的基分类器融合准则,设计面向高维小样本数据的集成分类算法,分析新算法的有效性、计算复杂性和对噪声的稳健性等,并应用其解决往复式压缩机故障诊断和高光谱图像分类等实际问题。该研究不仅可以完善集成学习的理论基础,也将为解决自然科学和国民经济各领域的同类问题提供有效方法。
英文主题词Ensemble learning;Imbalanced data classification;Deep learning;Variable selection;Feature extraction