随着人类进入后基因时代,大量的生物信息数据不断涌现并更新,其中蕴藏了许多重要的迄今为止尚未人知的信息和规律。本项目针对蛋白质家族分类以及结构、功能和进化关系预测研究的现状,提出利用非线性组合原理将非线性支持向量机与小波理论有机结合,构建了小波非线性支持向量机模型。基于氨基酸的物理化学特性,设计了一套基于蛋白质整条序列来计算蛋白质序列特征描述符的新方法,氨基酸物理化学特性的引入,有效克服了传统序列比对法只用单一的氨基酸字母序列进行比对信息不足的缺陷。构建了直接基于蛋白质氨基酸序列即可系统地预测蛋白质的家族分类、结构、功能和进化关系的预测平台,有效克服了传统序列比对和结构比对等方法的不足。应用预测平台对神经退行性疾病和自身免疫性疾病等的相关蛋白质(如,凋亡蛋白亚细胞,G蛋白偶联受体,酶蛋白,膜蛋白等)进行分类预测,准确率均大幅提高,并有效克服了蛋白质氨基酸序列同源性、冗余性等对传统算法的约束。初步探讨了重大疾病的发生与蛋白质结构、功能和进化之间的内在机制,建立了自动化、共享预测网站,为解析海量的生物信息数据和节省高昂的结构测试费用提供了方便、快捷、准确的研究手段。
英文主题词Wavelet Non-linear Support Vector Machine; Reformative SMO Arithmetic; Characteristic Descriptor; Protein Structure and Function; Classification