为解决高维小样本的"维数灾难"问题和发现自然模型的真实变量,本项目主要研究基于能量学习的特征选择方法,并将其与模块化集成学习方法相融合,通过解决样本分解后引发的"维数灾难"问题和增加集成个体的差异性,提高模块化集成学习处理高维大规模不平衡数据的性能。拟开展的研究工作包括1)结合K近邻分类思想,研究能量学习的局部模型以及由能量函数构成的K近邻分类损失函数;2)研究基于能量学习的特征子集评价准则,设计新的特征选择方法;3)研究融入特征选择的模块化集成学习方法,系统分析基学习器之间的差异性;4)在大规模集群计算机上实现本项目所研究的特征选择方法和模块化集成学习方法,通过解决计算机取证中的高维大规模不平衡电子证据的分类和从异常行为中挑选真正反映计算机犯罪的关键特征,验证它们的有效性。本研究对模式识别、数据挖掘和机器学习等领域所面临的高维小样本的特征选择以及高维大规模不平衡数据的分类具有重要意义。
Feature Selection;Energy-based Learning;Ensemble Learning;Loss Function;Computer Forensics
为解决高维小样本的“维数灾难”问题和发现自然模型的真实变量,本项目主要研究基于能量学习的特征选择方法,并将其与模块化集成学习相融合,通过解决样本分解后的“维数灾难”问题和增加集成个体的差异性,提高模块化集成学习处理高维大规模不平衡数据的性能。所开展的研究工作包括1)结合K近邻分类思想,研究能量学习的局部模型和基于能量函数的损失函数;2)研究基于能量学习的特征子集评价准则,设计新的特征选择算法;3)为了提高特征选择算法的性能,初步研究了基于能量学习的集成特征选择;4)为了保护数据隐私,初步研究了基于隐私保护的特征选择;5)研究融入特征选择的模块化集成学习方法,系统分析基学习器之间的差异性;6)在大规模集群计算机上实现本项目所研究的特征选择方法和模块化集成学习方法,通过广泛应用(帕金森症的检测、计算机取证和网页分类等)验证算法的有效性。本研究对模式识别、数据挖掘和机器学习中所面临的高维小样本的特征选择和大规模不平衡数据的模式分类具有重要的理论意义和应用价值。 在项目的研究过程中,发表了22篇论文,录用1篇,其中SCI检索2篇, EI检索11篇。包括发表在IEEE Trans. Neural Networks and Learning Systems和人工智能领域顶级会议AAAI2012的论文。此外还包括出版书籍中的1个章节、申请专利2项,开发了相关的系统,培养硕士生11位。