稀疏与冗余表征是近年来机器学习、模式识别、信号处理、计算机视觉等领域的热点问题,其基本思想是从尽量少的数据中提取尽量多的信息,它是对传统信息论的一个极为重要的补充和延伸,正在形成一套自己的理论体系,有着极大的理论和应用前景。本项目以Candes、Tao和Donoho提出的压缩传感为基础,针对高维非结构化数据,探索数据稀疏与冗余表征的新理论与新方法。具体包括(1)提出一种新的过完备字典的构建算法,降低设计过程的复杂度,增强学习结果的可解释性;(2)根据模型选择的一般性原则,揭示稀疏模型选择与特定数据结构、正则化项设计之间的规律;(3)结合优化理论、逼近理论等,建立信息不完备情况下,数据的稀疏可重构算法;(4)将所获得的新理论、新方法应用于多媒体、基因等数据的稀疏表征与理解,构建高维非结构化数据的稀疏分析原型系统。
Sparse;High dimensionality;Regularization;Big data;
进入二十一世纪,互联网以新的形式,如社交网络、互联网金融、电子商务等,影响着人们的工作和生活方式。数据的海量增长使得数据为王的大数据时代到来。基于稀疏与低秩表征的理论是近年涌现出来的鲁棒高效地处理高维、非线性、非结构化数据的新工具。围绕“数据的稀疏与低秩表征”这一科学问题,项目开展了如下三个方面的研究工作(1)研究了基于稀疏与低秩表征的模型选择,重点在基于判别性和图结构的正则化设计方面开展了一系列工作。(2)研究了稀疏与低秩模型的快速求解算法,重点在随机化采样和随机化投影方面开展了研究工作。(3)构建了稀疏与低秩表征面向视媒体大数据的系统平台(集群环境+GraphLab/Hadoop),该平台提供开放式的数据接口、应用接口,为完善稀疏与低秩表征的算法理论体系和设计方法提供了良好的实验环境。