生物信息学是当前国际上生命科学和数学、信息科学交叉的研究热点和前沿,而支持向量机是一种新的数据挖掘技术。本项目主要从最优化的角度研究支持向量机,并将其应用于生物信息学当中。首先,针对生物信息学中的高维小样本数据,建立同时能完成特征选择和分类双重目的的支持向量机优化模型和理论。在这方面,将基因共表达信息加入到模型中,使选出来的基因更具有生物意义;其次,针对基因表达数据具有误差较大的特点,考虑带扰动的数据,提出了相应的稳健的支持向量机优化模型,将问题转化为二阶锥规划,达到较好的效果;再次,针对生物信息学中的疾病诊断数据类别多、样本少的特点,建立基于支持向量顺序回归机的多类分类算法,并给出了支持向量机若干算法的LOO误差界;最后,针对生物信息学中的一些热点问题,如蛋白质与蛋白质之间是否有相互作用,原核生物的位点识别问题以及蛋白质大家族之一- - 酶的分类问题,主要用支持向量机,通过不同的方式构造特征,得到了较好的预测效果。期间共发表文章25篇,获得奖励1个,指导硕士研究生9名。
英文主题词Support Vector Machine; Bioinformatics; Data Mining; Feature Selection; Optimization