实际应用中处理高维巨量数据的需要迫切要求我们发展具有稀疏逼近性质的机器学习算法。统计和压缩感知的研究表明为了诱导解的稀疏性,正则化算法中的正则化函数在零分量应该不光滑且有越广的次导数越好。传统的基于可再生核希尔伯特空间的核方法不能满足这种要求。这迫使人们考虑巴拿赫空间的范数,特别是基于系数的正则化算法。然而,内积的缺失导致不能建立起一个类似的可再生核空间理论。缺少这项数学基础阻碍了算法发展和学习阶的估计。本项目计划利用双线性形式和半内积代替内积的重要作用,系统建立可再生核巴拿赫空间理论,重点研究具有能够诱导稀疏性的范数的可再生核巴拿赫空间。我们将研究这类空间的函数复杂性、逼近性质,其上的正则化学习算法的数值解法、稀疏诱导性和学习阶。我们也计划发展相应的面向多目标学习的向量值理论,并用国际机器学习基准数据库检验所得的理论结果和算法。
Machine learning;sparse approximation;reproducing kernel Banach spaces;L1 coefficient regularization;
本项目致力于建立并系统研究可再生核巴拿赫空间理论(包括具有L1范数的可再生核Banach空间,具有Lp(p>1)范数的可再生核Banach空间,和向量值可再生核Banach空间),此理论框架下学习算法的误差分析、稀疏诱导性与数值解法,及其在机器学习中的应用。项目的主要成果有利用测度嵌套的思想建立了具有L1范数的可再生核巴拿赫空间理论,为发展机器学习中的L1稀疏逼近提供了理想的数学基础;论证了基于此空间的L1系数正则化方法有稀疏诱导性,并能改进学习能力;建立了Lp(p>1)的可再生核空间理论;建立了向量值可再生核巴拿赫空间理论,实现了其上的各种学习算法,为多目标机器学习的巴拿赫空间方法铺平了基础;系统研究了机器学习中常用可再生核对应可再生核空间的包含关系,澄清了核方法中可再生核选择的一个重要理论问题。项目发表接收论文7篇(其中SCI数学一区一篇,SCI计算机科学一区一篇), 投稿在审3篇(皆已在arXiv:1310.5543, 1412.4265, 1311.4294)。项目较好地完成了预期研究目标。