系统生物学是一个新兴的多学科交叉的研究领域,主要是利用大量累积的分子生物实验数据为生命系统构建可靠有效的理论模型,以此为基础对系统进行分析研究,最终达到控制设计某种生命过程的目的。该领域的发展对医疗健康、器官移植、新材料开发等将产生深远影响。基因调控网络被认为是生命系统理论模型的最佳候选,因此基于现有的生物信息数据重构基因调控网络成为系统生物学的研究焦点之一。目前,虽然已有不少与之相关的研究成果,但是对于迫切需要解决的核心问题- - 逆向工程中通常所面临的高维空间求解难题,却没有实质性进展。基于这种现状,本申请拟从在求解空间的低维子空间中进行随机搜索的基本构想出发,以典型模式生物的信息数据为基础,通过数值模拟和理论分析,以期发展一套能有效解决上述难题的理论方法,并将其用于一般生命过程的基因调控网络重构和预测,为系统生物学的发展提供可靠有效的理论支持。
Molecular evolution;DNA walk;Density of hydrogen bonds between nucleotides;Component of oligonucleotides;Gene regulation network
基因转录调控是一切生命活动的基础。确定基因组的转录调控关系有助于理解、控制、甚至设计生物过程。DNA微阵列(DNA microarrays)技术的发展使我们能够同时监测大量基因的转录物浓度,也使重构或预测基因调控关系成为可能。由转录物浓度反推基因调控关系是一个典型的逆问题。我们收集整理了BioCyc数据库以及DREAM(Dialogue for Reverse Engineering Assessments and Methods)计划中公布的、用In Silico方式得到的酵母菌(Yeast)和大肠杆菌(Colibacillus)相关基因在不同条件下的转录物浓度数据;以当前普遍采用的、基于准平衡态近似的基因调控动力学模型为基础,把转录物稳定浓度作为整个基因调控网络的不动点吸引子(或以转录物浓度时序变化作为网络的稳定轨道);通过建立随机搜索求解空间的低维子空间的策略来预测给定基因之间的调控关系。结果发现,这种随机搜索策略更有利于抑制性调控关系的预测,而对促进性调控关系的预测则很差。究其原因是现有实验方法测得的转录物浓度数据既包含了直接调控信息又包含了间接调控信息。如何从这些实验数据中分离出直接调控信息是确定基因调控关系的关键,也是当前研究的焦点问题。我们的方法尽管在大规模搜索满足实验数据的网络结构时有明显优势,但是对于解决上述信息分离的相关问题却无能为力,因此无法利用转录物浓度数据准确预测基因调控关系。基于以上认识,同时考虑到生物进化不仅体现在表型特征上、更根本的是体现在基因型上,我们对NCBI(National Center for Biotechnology Information)发布的2723种细菌和165种古细菌的全基因组序列以及214条真菌染色体做了大规模分析。试图从核苷酸序列特征出发确定不同基因片段之间的关系。结果发现1) 生物在分子层次上的进化使DNA序列具有两个基本属性确定性特征的配对氢键密度和自回避随机行走特征的碱基类型分布;2) 相对于碱基类型分布而言,配对氢键的局域密度变化承受更多的进化压力、因而有更直接的生物学对应;3)基因组中寡核苷酸的组分特征与RNA聚合酶转录机制密切相关。上述发现有助于建立RNA聚合酶的统计力学、甚至动力学描述。这对理解基因的转录、调控机制具有基础重要的意义。