随着对基因研究的不断深入,探索基因转录调控机制变得越来越迫切。 转录过程既是DNA翻译成蛋白质的关键一步,同时也是调控基因表达的关键阶段。转录调控通常是在转录起始步骤通过调控蛋白(转录因子)识别并结合到调控基因上游区域中的一段特定DNA序列(转录因子结合位点或模体(motif))来实现的。一个转录因子通常有若干个结合位点,而同一个基因有时会被若干个转录因子调控。被同一个转录因子调控的若干个基因往往有着相似或相关的功能。因此,预测所有属于不同转录因子的结合位点,将有助于对转录因子自身性质的进一步研究和转录调控网络的构建。即使对原核生物,虽然其结合位点相对规范,比如属于同一个转录因子的模体往往序列长度相同并相对保守等,一切现有的预测方法仍然都有不可容忍的缺陷。我们将在基因组水平上研究原核生物转录因子结合位点的算法预测和软件开发,并由此设计全基因组水平上调节子(regulon)的计算预测。
regulation motif;operon;regulon;prediction algorithm;prokaryotes
转录因子调控模体的计算预测一直是分子生物学和计算生物学研究领域中的一个最基本的科学难题,而原核生物操纵子的精确预测又是调控模体和调节子精确预测的基础。一个转录因子通常有若干个结合位点,而同一个基因有时会被若干个转录因子调控。被同一个转录因子调控的若干个基因往往有着相似或相关的功能。因此,预测所有属于不同转录因子的结合位点,将有助于对转录因子自身性质的进一步研究和转录调控网络的构建。本项目主要在操纵子精确预测的基础上,设计原核生物基因组水平上可靠、高效、快速的调控模体的预测算法,并由此设计原核生物基因组调节子的预测算法。我们完善了模体闭包的概念,科学地确定计算模体闭包时使用的阈值,设计出了更快更准的调控模体预测算法和软件。同时对于模体预测中信号放大与搜索难题,我们设计出基于多次短序列比对和图中求极大团的组合算法,极大地提高了预测微弱模体信号的能力,有效地挖掘被噪音吞没的调控模体,使被挖掘的信号通过之间的相互作用从噪音中脱颖而出。我们的预测算法实现了模体长度的自动确定,在全基因组水平上,准确预测出全局调控的转录因子的调控模体。首次使被挖掘信息从浩瀚的噪音中脱颖而出,并找到了不同长度模体族间尾部概率可比性的方法,将模体识别的预测精确度提高到一个崭新的水平。