蛋白质磷酸化过程是真核细胞生命活动最普遍的调控手段,具有重要的研究意义。发展基于机器学习理论的蛋白质磷酸化预测方法,可以弥补现有实验检测技术中的缺陷,有助于蛋白磷酸化的研究。本课题从以下三个方面改进现有蛋白质磷酸化的预测方法1)发展专用的机器学习分类方法,扩充现有磷酸化蛋白质数据中所缺乏的蛋白激酶信息,大幅度增加蛋白质磷酸化预测工作的可用数据量;2)收集目前所有已知有助于蛋白质磷酸化预测的生物信息特征加以系统全面地研究;3)引入wrapper、随机森林等新的特征选择技术,将特征选择和蛋白质磷酸化预测紧密结合起来。通过从数据、特征、算法三个角度同时改进现有方法,可以显著提高蛋白质磷酸化预测的性能,并有助于阐明蛋白质磷酸化的生物学机理。在此基础上,构建扩展磷酸化蛋白质和蛋白激酶信息的网络公共数据库和激酶特异性蛋白质磷酸化的在线预测系统,为相关的生物、医学、制药等研究提供理论指导和帮助。
Information mining of biological molecules;phosphorylation;PK-specific;bioinformatics;machine learning
蛋白质磷酸化过程具有重要意义,目前国内外的相关研究日益增多。本项目从数据、特征、算法三个角度对基于机器学习理论的蛋白质磷酸化预测问题进行了深入研究。首先,系统地搜集、整理了大量蛋白质磷酸化位点和其相关的蛋白激酶信息,建立了算法训练和性能评估的高质量数据集并发展了有效利用多源异质生物信息特征的蛋白激酶指派算法,其性能显著优于目前现有的预测方法。此外,构建了包括磷酸化位点附近的局部序列、蛋白-蛋白相互作用、基因本体信息、二级结构、可溶性和无序性在内等多种生物学特征,用于蛋白质磷酸化的预测研究。在上述研究的基础上,针对磷酸化相关特征维数过高的问题,提出了基于最小冗余最大相关准则的wrapper特征选择方法,通过与SVM、random forest等分类器结合,对蛋白激酶及特异性的磷酸化位点进行准确预测,并对特征选择和预测的结果从生物学角度进行了分析和理解,有助于阐明蛋白质磷酸化的分子机理。针对目前普遍认可的蛋白激酶层级结构(组-家族-亚家族-激酶),从不同层面上研究了磷酸化预测以及相关特征选择的问题,取得了一些具有普遍意义的发现,显著提高了现有预测方法在不同激酶层级上的最好性能。此外,利用在上述研究中发展的预测算法,首次系统地开展了磷酸化修饰与人类重大疾病相关性的预测工作。作为重要的生物信息学资源,开发了用于蛋白激酶指派的网络计算平台PKIS,同时公开了研究中所提出的特征选择和预测算法的源代码以及相应的磷酸化位点和蛋白激酶的数据,为磷酸化相关的生物、医学、制药等研究提供理论指导和计算工具。