在包括微阵列基因表达、生物图像分析、人脸识别及文本分类等应用中,数据维数通常达 1万甚至1百万以上,从而会导致严重的维数灾难而使得泛化性能很差。稀疏学习是解决该问题的有效方法。其将特征选择嵌入具体的分类或回归学习任务之中,以实现满足给定准则的稀疏表示,因而已在机器学习、模式识别、信号处理及统计等领域受到广泛关注。然而现有稀疏学习方法一般仅在维数较低时工作得较好,但在高维情况下,一般难以高效工作。本项目旨在已有工作基础上,发展出相当高效的大规模稀疏学习方法。其具有如下优点1)灵活性和通用性,适用于任何基于2,1-范数正则化或约束的稀疏学习问题;2)高效性,每步仅需计算函数值和梯度,代价小,且能获得一阶黑盒子方法收敛速度的上界;3)可将不可导凸问题转化成可导凸问题,进而采用欧几里德投影实现对约束的高效处理;4)实用性。本项目的最终成果无疑可为大规模的稀疏学习提供一条新途径。
Machine Learning;Sparse Learning;Regularization;Euclidean Projection;Large-Scale Problem
在包括微阵列基因表达、生物图像分析、人脸识别及文本分类等应用中,数据维数通常达 1万甚至1百万以上,从而会导致严重的维数灾难而使得泛化性能很差。稀疏学习是解决该问题有效方法。其将特征选择嵌入到具体的分类或回归学习任务之中,以实现满足给定准则的稀疏表示,因而已在机器学习、模式识别、信号处理及统计等领域受到广泛关注。然而现有稀疏学习方法一般仅在维数较低时工作得较好,但在高维情况下,一般难以高效地工作。本项目旨在已有工作的基础上,发展出高效的大规模稀疏学习方法,其具有如下优点1)灵活性和通用性,适用于任何基于2,1-范数正则化或约束的稀疏学习问题;2)高效性,每步仅需要计算函数值和梯度,代价小,且能获得一阶黑盒子方法收敛速度的上界;3)可将不可导凸问题转化成可导凸问题,进而采用欧几里德投影实现对约束的高效处理;4)具有实用性。本项目侧重快速算法研究以及提高分类性能,研究成果包括如下几个方面1) 数据内在的结构特征挖掘,2) 图像数据二维结构研究,3)稀疏特征挖掘,4)自适应最优核学习。在主流期刊和会议上共发表12篇学术论文。