作为核函数问题的推广,核矩阵学习可以更加细致地描述样本点间的关系,因而更符合实际情况,已成为当今数据挖掘领域的一个的研究方向。它的理论研究和实际应用正在快速的发展,最优化方法是其主要工具之一。本项目拟从最优化角度研究核矩阵学习的问题,特别注意核矩阵学习问题的新模型和其最优化方法。研究内容包括两分类问题中,基于支持向量机型方法的最优化模型及其求解等问题,以及在其他数据挖掘问题(多分类、聚类、回归等)的推广。在应用领域将针对生物信息学中的具体问题构建核矩阵学习模型并进行相应的最优化算法研究。目前对核矩阵学习的研究和应用刚刚起步,还未有从"最优化理论和方法"角度出发的研究工作。因此,本项目的研究无论是对核矩阵学习理论还是实践方面,都很有意义。
Optimization method;support vector machine;kernel function;kernel matrix learning;bioinformatics
核矩阵学习可以更加细致地描述样本点间的关系,因而更符合实际情况,已成为当今数据挖掘领域的一个的研究方向。本项目从最优化角度研究核矩阵学习的问题,特别注意核矩阵学习问题的新模型和其最优化方法。2012年由CRC Press公司出版了我们的英文专著《Support Vector Machines—Optimization based Theory,Algorithms, and Extensions》。此外,项目推广了现有核矩阵学习模型,提出了基于支持向量机型的多核新模型;讨论了实际应用时多个核函数的构成问题;提出了基于标签的多核学习模型;对于基于网络的多核学习问题;对多分类问题结合局部和样本标签信息也建立了新模型;利用变间隔技术改进了中心支持向量机模型;根据一致性原则改进了中心支持向量机模型;针对张量类型的数据,也建立了直接解决张量数据输入的支持张量机新模型。我们还研究了双子-支持向量机的各种推广形式,如建立了统一范数意义下的Twin-SVM新模型;建立了最小二乘意义下的递推投影Twin-SVM模型;建立了分类问题的最小二乘变间隔Twin-SVM模型;建立针对回归问题的ε-敏感Twin-SVM模型;给出了基于概率输出的Twin-SVM模型;建立了基于梯度下降的Twin-SVM新算法;建立了基于超松弛法和微分进化理论的Laplace-TwinSVM新算法;推出了组合Twin-SVM方法等。另外,我们还对半监督分类问题进行了研究。针对一类特殊情况的半监督问题PU问题,分别改变输出为概率;基于图的概念,对无标签的样本点进行了更细的划分建立了新模型;引入密度的概念解决了半监督的PU问题;改进了标准的最小二乘支持向量机使之能够解决PU问题;结合局部学习的思想,建立了局部学习的半监督分类器等。在应用方面,我们主要研究核矩阵学习方法在生物信息学等方面的应用。利用多核学习研究了蛋白质位点的预测问题;利用支持向量机研究了蛋白和蛋白相互作用的预测问题;根据蛋白和蛋白的相互作用网,以及蛋白和药物的相互作用网,对蛋白和药物的相互作用进行了预测;基于多核学习的支持向量机模型,巧妙地构造了反映基因组特征的多个核函数,研究了基因的网络特征选择问题;将潜在因子分析法模型应用于结肠癌的致病基因的选择问题。 期间共指导硕、博研究生18人,发表专著和论文45篇,并多次参加国内外重要科研学术活动。