生物序列数据的基本特征决定了生物序列的建模必然是基于数理统计学理论。本项目以大数据统计计算为基础,在贝叶斯统计分析的理论框架之下,系统地研究生物序列数据的统计分析、建模和计算,实现对生物序列信息,特别是蛋白质数据信息的推断。主要内容包括建立针对性的氨基酸替代矩阵,发展更加稳健精确的刻画蛋白质序列相似性的测度,对自然界中蛋白质序列、家族及结构类型的空间分布进行估计,进而对功能蛋白质的序列、结构、功能和进化以及它们之间的关系进行推断和预测,完善或创立针对生物大分子序列数据的统计分析、建模的理论和方法。该研究具有国际先进性,且有重要的理论意义和应用背景。
Biological sequence data;Random process and evolution;Codon substitution models;Protein families and folds;Statistical model & algorithm
随着可用的生物序列与结构数据的爆炸式增长,利用数理统计等数学理论和方法去推断具有生物学含义的信息成为当务之急,这正是本项目的立足点。本项目以大数据统计计算为基础,在数理统计、随机过程等理论的框架之下,研究生物序列数据的统计分析、动态建模和计算,实现对生物序列信息,特别是蛋白质数据信息的推断。我们利用两类不同蛋白质数据库(Pfam和SCOP)之间的映射,分别研究了包含于不同类折叠子中的蛋白质家族规模的分布,估计了不同规模的Pfam家族贡献新折叠子的概率分布,估计出覆盖当前Pfam数据库所需的折叠子总数等重要问题;我们提出了基于氨基酸相似性的密码子置换模型,利用连续时间的马尔可夫过程来描述数据单元的变化,通过极大似然法进行参数估计,并将新模型应用到真实数据集,讨论新模型对数据的适用性。我们还讨论了怎样基于密码子三个位置上发生置换的差异性和同义密码子的使用偏性等重要特性来建立置换模型,探测物种进化的正向选择。 此外,由于蛋白质等生物大分子的进化需要更高级的数学动态模型来刻画,生物分子的功能需要通过它们之间的相互作用和合作来实现,因此项目研究也包括相关的随机进化动力学模型。我们探讨了各种条件下不同类型个体间的相互作用以及合作策略的演化,取得了一些重要结果。例如,我们定义了一种新的合作机制,称之为持续合作(persistent cooperation)。持续合作型蛋白质一方面会提供合作,另一方面通过释放某种抑制素使背叛个体的数量得以控制,从而实现分子的生物学功能。 本项目的研究主要基于概率统计的模型和方法,因此对相关的概率统计模型和算法的讨论,对本项目是必需的,也是重要的组成部分,例如,我们研究了对具有多元t分布的Tobit和多项Probit因子分析模型参数的极大似然估计、使用EM算法处理具有高斯分布的有限混合因子分析模型中的非正态误差等相关问题。 本项目研究对解析功能蛋白质的序列、结构、功能和进化之间的关系具有重要意义,完善和丰富了针对生物大分子序列数据建模的理论和方法。