集成学习利用多个弱分类器来解决同一个问题,能显著提高分类系统的泛化能力。研究表明,所有分类器都参与集成效果并非最好,从众多分类器中选择一部分差异性较大的分类器进行集成可以提高集成的效率并改善其效果。因此分类器的选择方法以及作为选择依据的差异性度量就成为选择性集成学习中的关键问题。针对上述问题,本项目提出一种新的分类器整体差异性度量,在此基础上,将分类器的选择与集成过程相结合,提出分类器的动态选择与循环集成方法。动态选择是指根据识别对象的难易程度(由识别结果的可信度来判定),选择相应数量的分类器参与集成。先用所提出的分类器整体差异性度量对分类器进行排序,再根据识别对象的难易程度从已排序的分类器中依次递补,从而避免了搜索过程,提高了选择的效率;循环集成是指当对象很难识别时,可以循环利用入选分类器进行集成,进一步提高集成的效率和效果。本项目的研究对机器学习、模式识别理论及应用具有十分重要的意义。
Ensemble Learning;Diversity Measurement;Dynamic Selection;Circulating Combination;
集成学习利用多个弱分类器来解决同一个问题,能显著提高分类系统的泛化能力。研究表明,所有的分类器都参与集成效果并非最好,从众多分类器中选择一部分差异性较大的分类器进行集成可以提高集成的效率并改善其效果。因此分类器的选择方法以及作为选择依据的差异性度量就成为选择性集成学习中的关键问题。针对上述问题,本项目提出一种新的分类差异性度量,在此基础上,将分类器的选择与集成过程相结合,提出分类器的动态选择与循环集成方法。总的说来,通过3年的研究,本项目的技术成果主要包括以下方面。首先,提出一种结合稀疏性的差异性度量优化方法。其次,提出三种基于差异性的优化选择方法基于稀疏性和差异性的启发式分类器选择算法、基于样本权重的差异性度量优化方法和基于排序的动态分类器集成选择算法。同时,在本项目的资助下,项目组成员共发表29篇SCI/EI/ISTP期刊/会议学术论文 ,其中SCI论文6篇(含1篇业内顶级期刊IEEE.Trans. Pattern Analysis and Machine Intelligence论文)。