本项目对膜蛋白分类中的数据集构建,分类算法的设计、比较和改进以及相关并行计算问题等方面进行了研究,从数据集、分类模型和计算方法等方面着手提高分类模型的效率。本研究中大量计算实验表明,在对膜蛋白分类的过程中,通过利用机器学习的方法,将能体现类别特征的生化信息结合到特征提取算法中,能有效地提高分类的准确性。具体工作主要体现在以下几个方面 (1)整理和重构了膜蛋白序列数据集,使各种分类方法在此数据集上具有较好的可比性。 (2)利用氨基酸残基之间的顺序关联性,用k子串离散源的方法对膜蛋白序列进行特征提取,并融合最小离散增量方法和K近邻算法构建一种新型的膜蛋白分类预测模型获得了较好的分类效果。 (3)利用氨基酸残基的物理化学特性以及氨基酸残基之间的长程相关性,特征提取时,在氨基酸组分基础上引入氨基酸位置信息,计算多种氨基酸残基指数的相关系数并选择最优组合方式,进一步融合两类特征信息对膜蛋白序列进行特征提取,采用支持向量机算法(SVM)作为分类器,构建了一种新的膜蛋白分类模型。此模型在分类准确性上有很大提高。 (4)对分类算法有关的并行计算及性能分析进行了研究。
英文主题词membrane protein; classification; feature extraction; parallel computing