核方法是机器学习研究领域中的热点之一,近十几年来得到了广泛的关注。随着核方法应用范围的拓展,面对大量新出现的具有复杂结构特征数据分析问题,传统核方法在其泛化能力和鲁棒性问题上均面临着新的挑战。本项目将在分析并模型化数据空间的内在结构特征的基础上,研究在核方法中充分利用了数据空间的内在结构特征的新算法,以提高在复杂数据结构特征下核方法的泛化能力和鲁棒性。主要研究内容包括1)研究基于数据空间的内在结构特征的分类算法;2)结合基于数据空间的内在结构特征的分类算法,研究基于数据空间的内在结构特征的回归算法;3)研究基于数据空间的内在结构特征的数据域描述算法;4)理论上分析数据内在结构特征驱动的新算法的理论性质。通过本项目的研究预期获得核方法中充分了利用数据特征的新思想、新方法、新技术、新系统。
kernel method;classification algorithm;regression algorithm;data doamin description algorithm;
核方法是机器学习研究领域中的热点之一,近十几年来其理论和应用研究均得到了相关研究人员的广泛关注。随着核方法应用范围的拓展,面对大量新出现的具有复杂结构特征数据分析问题,传统核方法在其泛化能力和鲁棒性上均面临着新的挑战。针对此问题,本项目研究了利用数据空间的内在结构特征来改进传统核方法,以提高核方法在面对复杂数据结构特征下的泛化能力和鲁棒性。具体来讲,本项目着重研究了以下几个方面(1)分类问题。支撑向量机(Support Vector Machine,SVM)是基于核方法分类算法的一个代表性算法,目前针对该算法的一个研究热点是利用多核学习(Multiple Kernel Learning,MKL)来构建能够反应数据特征的核矩阵,从而提高该算法的性能。我们主要探索研究了利用半径间隔界(radius margin bound)来提高基于MKL的SVM算法的性能。进一步,我们把相关研究方法拓展于局部多核学习(Localized Multiple Kernel Learning,LMKL)和不定核学习(Indifinite Kernel Learning,IKL)中。实验已经初步验证了相关方法的可行性和有效性。(2)回归问题。支持向量回归(Support Vector Regression,SVR)是基于核方法中一种重要的回归方法,其可以被看作是在一个对偶空间的SVM分类问题。我们依据SVM与SVR之间的关系,拓展了最大最小间隔机(Maxi–min Margin Machine,M4)分类算法来处理回归问题,从而得到了充分利用了数据特征的回归新算法,进一步提高了算法的性能。(3)数据域描述问题。我们针对单类支持向量机(One-class SVM)数据域描述算法缺少考虑数据特征的问题,通过重新定义样本点到决策面超平面之间的距离,构建了新的优化问题,从而达到了在其中充分利用数据分布信息和数据内在结构特征的目的,进一步该方法的性能。另外,我们还探索研究了利用数据内在结构特征来改进K-means和FCM等聚类算法的性能。项目研究总体上按照计划进行,在利用数据特征来改进传统核方法的研究中得到了一些具有价值的研究成果。在项目的资助下,目前共发表了9篇论文,其中4篇被SCI检索,3篇被EI检索。此外,目前还有多篇论文处与评审阶段。