多示例学习、多标记学习和多示例多标记学习是两类分类问题的实质性的推广,它们可以更加细致地描述问题因而更符合实际情况,已成为当今数据挖掘领域的一个的研究热点。多示例学习、多标记学习和多示例多标记学习的理论研究和实际应用正在快速的发展。最优化方法是研究它们的主要工具之一。本项目拟从最优化角度研究多示例学习、多标记学习和多示例多标记学习问题,特别注意多示例多标记学习问题的新模型及其最优化方法。支持向量机型方法是基于最优化的求解这类问题的重要方法。本项目将在系统研究各支持向量机型方法关系的基础上,建立新的多示例多标记最优化模型,并研究其求解方法。在应用领域中,我们将利用多示例学习、多标记学习和多示例多标记学习的方法,解决图像分类中的热点问题。在国际上关于本项目的主要研究内容,有的只是处于起步阶段,有的尚未见到有关研究。因此,本项目的研究无论是对多示例多标记学习理论还是实践方面,都很有意义。
Optimization method;multi-instance learning;multi-label learning;multi-instance multi-label;support vector machines
多示例学习、多标记学习和多示例多标记学习是两类分类问题的实质性的推广,它们可以更加细致地描述问题因而更符合实际情况,已成为当今数据挖掘领域的一个的研究热点。多示例学习、多标记学习和多示例多标记学习的理论研究和实际应用正在快速的发展。最优化方法是研究它们的主要工具之一。本项目从最优化角度研究了多示例学习、多标记学习和多示例多标记学习问题,特别注意了多示例多标记学习问题的新模型及其最优化方法。支持向量机型方法是基于最优化的求解这类问题的重要方法。本项目在系统研究各类支持向量机型方法关系的基础上,建立了一系列新的多示例多标记最优化模型,并研究了其求解方法。在应用领域中,我们利用多示例学习、多标记学习和多示例多标记学习的方法,解决了生物信息学中的一些有代表性的问题。2012年由CRC Press公司出版了我们的英文专著《Support Vector Machines—Optimization based Theory, Algorithms, and Extensions》。此外我们还完善了支持向量机的统计学习基础,这是迄今为止对C-SVM的一种确切、直接、简明的统计学习理论的解释;研究了不同范数意义下支持向量机的特征选择能力问题;采用双子-支持向量机(Twin-SVM)对多示例学习问题进行了研究,重点研究了双子-支持向量机的各种推广形式,如建立了统一范数意义下的Twin-SVM新模型,最小二乘意义下的递推投影Twin-SVM模型,针对回归问题的ε-敏感Twin-SVM模型,基于概率输出的Twin-SVM模型,基于梯度下降的Twin-SVM新算法。另外,我们还推广了中心支持向量机,加入了广义特征值的概念,建立了新模型和实用算法;提出了基于标签的多核学习模型;建立了带有隐私数据分类的线性核分类器模型;结合集成学习技术提出了解决数据不均衡分类问题的新模型。我们还对半监督分类问题中的一类特殊情况——PU问题,也进行了研究,建立了基于概率输出的PU模型;基于图的概念,对无标签的样本点进行了更细的划分,构造了PU问题的新模型。期间共指导硕、博研究生14人,发表专著和论文40篇,并多次参加国内外重要科研学术活动。