基于标记样本和未标记样本的半监督学习问题是学习理论领域的热点课题之一。基于不同的模型假设,许多半监督学习算法被提出并在数值实验中显示了良好的性能。然而关于半监督学习问题的数学基础的研究还处于起步阶段,特别是对未标记样本有助于改进学习性能的充要条件还有待建立。本项目拟在监督学习理论分析的基础上,结合逼近论的思想和方法,研究半监督学习中算法的一致性和收敛速度等逼近问题,为半监督学习模型建立较为坚实的数学基础。主要的研究内容包括建立基于标记样本和未标记样本的假设空间容量估计,获得半监督学习算法推广误差和收敛速度的估计;基于核积分算子的理论,建立半监督正则化学习算法的推广误差分析。我们期望本项目的研究能推广逼近论的应用领域,推动逼近论的发展,并对学习理论的前沿性理论问题有所贡献。
Semi-supervised learning;function approximation;error analysis;learning to rank;learning rate
本项目对半监督学习的推广性能进行了深入的研究,阐明了相关机器学习算法的逼近理论基础。项目组成员认真履行申请书的承诺,取得了一些有价值的研究结果,圆满完成研究计划。主要研究成果包括两个部分一是建立了半监督贪婪算法和半监督排序学习算法等的推广误差分析,分析了标记样本与未标记样本对其学习速度的影响机制,阐明了未标记样本有助于改善机器学习推广性能的基本条件; 二是探讨了基于函数逼近的正则化排序学习的算法设计、误差分析及应用,阐明了影响其逼近性能的相关因素,并验证了其在推荐系统、药物发现等领域的有效性。本项研究的完成不但将发展、丰富学习理论和逼近论,而且为信息处理中相关问题的解决提供理论指导和方法。