大规模稀疏学习及其应用研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

大规模稀疏学习及其应用研究

项目名称：大规模稀疏学习及其应用研究
项目类别：青年科学基金项目
批准号：60905035
申请代码：F030504
项目来源：国家自然科学基金
研究期限：2010-01-01-2012-12-31

项目负责人：刘俊
负责人职称：博士后
依托单位：南京航空航天大学
批准年度：2009

中文摘要：

在包括微阵列基因表达、生物图像分析、人脸识别及文本分类等应用中，数据维数通常达 1万甚至1百万以上，从而会导致严重的维数灾难而使得泛化性能很差。稀疏学习是解决该问题的有效方法。其将特征选择嵌入具体的分类或回归学习任务之中，以实现满足给定准则的稀疏表示，因而已在机器学习、模式识别、信号处理及统计等领域受到广泛关注。然而现有稀疏学习方法一般仅在维数较低时工作得较好，但在高维情况下，一般难以高效工作。本项目旨在已有工作基础上，发展出相当高效的大规模稀疏学习方法。其具有如下优点1）灵活性和通用性，适用于任何基于2,1-范数正则化或约束的稀疏学习问题；2）高效性，每步仅需计算函数值和梯度，代价小，且能获得一阶黑盒子方法收敛速度的上界；3）可将不可导凸问题转化成可导凸问题，进而采用欧几里德投影实现对约束的高效处理；4）实用性。本项目的最终成果无疑可为大规模的稀疏学习提供一条新途径。

中文主题词：机器学习；稀疏学习；正则化；欧几里德投影；大规模问题

英文摘要：

Machine Learning；Sparse Learning；Regularization；Euclidean Projection；Large-Scale Problem

英文主题词： Machine Learning；Sparse Learning；Regularization；Euclidean Projection；Large-Scale Problem

结论摘要：

在包括微阵列基因表达、生物图像分析、人脸识别及文本分类等应用中，数据维数通常达 1万甚至1百万以上，从而会导致严重的维数灾难而使得泛化性能很差。稀疏学习是解决该问题有效方法。其将特征选择嵌入到具体的分类或回归学习任务之中，以实现满足给定准则的稀疏表示，因而已在机器学习、模式识别、信号处理及统计等领域受到广泛关注。然而现有稀疏学习方法一般仅在维数较低时工作得较好，但在高维情况下，一般难以高效地工作。本项目旨在已有工作的基础上，发展出高效的大规模稀疏学习方法,其具有如下优点1）灵活性和通用性，适用于任何基于2,1-范数正则化或约束的稀疏学习问题；2）高效性，每步仅需要计算函数值和梯度，代价小，且能获得一阶黑盒子方法收敛速度的上界；3）可将不可导凸问题转化成可导凸问题，进而采用欧几里德投影实现对约束的高效处理；4）具有实用性。本项目侧重快速算法研究以及提高分类性能，研究成果包括如下几个方面1) 数据内在的结构特征挖掘，2) 图像数据二维结构研究，3）稀疏特征挖掘，4）自适应最优核学习。在主流期刊和会议上共发表12篇学术论文。