生命活动是若干蛋白质在微观上所形成的复杂相互作用网络的宏观表现。研究蛋白质网络对从系统水平上理解生命活动的内在组织及其过程具有重要理论意义。蛋白质网络在生物体的不同生命周期阶段及不同的环境下,不断地发生着变化,因此有必要依据蛋白质网络动态演化过程,对蛋白质网络整体演化规律、复杂多样的结构功能以及动态特征展开研究。本项目将借助日益丰富的生物实验数据,在复制分歧模型框架下,研究蛋白质网络动态演化机制,建立合理的蛋白质网络动态演化模型;结合网络演化及其拓扑特征,引入启发式信息,按照蛋白质网络组成的结构粒度,从关键蛋白、网络模体、功能模块的递进层次开展对关键蛋白、网络模体和功能模块的动态识别,动态特征提取,动态模式挖掘以及之间的关联规律等问题的研究,为进一步理解细胞等生物体的动态变化机理提供新的途径。
dynamic evolution model;essential protein;biological network motif;multisource information fusion;
针对蛋白质网络在生物体的不同生命周期阶段及不同的环境下,不断地发生变化的情形,本项目依据蛋白质网络动态演化过程,对蛋白质网络整体演化规律、复杂多样的结构功能展开了研究。在现有复制分歧模型的基础上,重点研究了蛋白质的相互作用倾向和分歧概率之间的关系,提出了基于蛋白质年龄的模拟PPI网络进化过程的ADD模型(age-dependent duplication-divergence)和向后分解蛋白质相互作用网络的IADD模型(inverse age-dependent duplication-divergence);针对单一网络拓扑特征来对关键蛋白进行识别,导致识别准确率不高的问题,结合基因本体和复合物信息,提出了三种多信息融合的预测关键蛋白的方法GO-ELAC、EGC和CSC,有效的提高了识别精度;针对计算复杂度问题,结合蛋白质网络的生物特点,提出整合拓扑特性和功能的生物网络模体识别算法Ecc-GOSS、新型子图抽样和子图比对的概率网络模体发现算法和基于子图扩展和子图支持度的抽样网络模体发现算法SE&SSV,在时间性能上有所提高;围绕蛋白质数据中存在的高假阳性和假阴性问题,提出了基于GO信息来识别蛋白质复合物的算法和基于不确定网络识别蛋白质复合物的算法COMDG,提高了识别精度,且挖掘出更多具有生物意义的可重叠功能模块。