最小基因组研究在化工、制药、能源等领域具有重要应用价值,对生命的起源、进化和代谢控制等问题的研究具有重要意义。本项目以基因之间、基因与非编码区序列片段之间纠错约束关系为研究对象,利用现代通信工程的纠错编码理论研究基因组之间蕴含的纠错编码机制,研究必要基因判定规则,指导最小基因组设计。本项目要回答以下问题纠错编码中的分组码、卷积码和级联编码模型能否反映基因之间、基因与非编码序列片段之间在纠错编码意义上的相互影响关系?各模型的最佳模型参数和数据分析模式?本项目是对我们提出的如下理论进行验证遗传信息自身具有复杂的纠错机制,某些基因的存在确保了另一些基因在遗传过程中的信息健壮性(抗干扰能力强)。可由此判定必要基因,确定最小基因组,建立一种必要基因的分析规则。开展本项目有助于研究最小基因组设计方法;探索合成基因组研究过程中安全问题的解决方法;借鉴生物遗传信息编码方式优化通信领域编码理论。
error correction code;block code;convolutional code;essential/nonessential gene;
一、相关研究情况 1、研究遗传信息单元之间在纠错意义上的相互影响关系极具意义,对我们理解遗传序列信息单元之间的相互作用和影响可以提供一个新的视角,为我们利用通信工程的编码理论改造遗传序列,具有指导作用。我们借鉴通信编码理论中编码模型的设计、分析方法,结合分子生物学中密码子简并性、密码子上下文关联性、碱基短程关联占优等生物学特性(1)设计了一种基于分组码最小码距的分析模型。对识别mRNA 引导序列、对翻译起始准确定位,以及在蛋白质翻译过程中识别开放阅读框具有较好效果。(2)设计了一种卷积码分析模型。对翻译起始、终止,原核生物的SD区域有较好识别能力。我们在实验中建立一个新参数特征平均码距(CACD),与原核生物GC含量具有较好的比例特性。 2、现阶段研究中,仅仅用编码的参数(如码距、码重等)对生物序列进行描述,不足以刻画生物序列的复杂性,对必要/非必要基因进行描述。因此开展了对必要/非必要基因的描述特征的探索。(1)提出一种直接将Hurst指数作为指标参数进行DNA序列相似性分析的方法。(2)对多个细菌的必要、非必要基因与完全基因集合的Hurst指数的统计特性进行了分析,其统计分布特性具有显著差异。(3)对多种原核生物进行蛋白质亚细胞定位的数值定量分析,观察到在不同细胞器和细胞区域,必要/非必要基因中含有的某些蛋白质含量的比例有明显的数值范围分布。上述结果可以在细菌必要基因的计算机辅助设计中,对设计必要基因组提供支持。 3、信号表达是生物信号过程中的重要环节,可对分析结果产生明显影响。基于符号动力学原理,提出了一种图形表示RNA二级结构序列的方法,并在RNA二级结构序列的相似度分析中初步验证了其有效性。 4、基于线性代数中矩阵秩的理论和伽罗华域运算规则,提出一种新的DNA序列短串联重复线性定位办法。 5、根据项目研究目的中对合成生物安全问题的考虑,我们对合成生物学及其安全监管问题的研究进展保持跟踪,并对现有研究情况、涉及的安全风险以及相关研讨及对策分析进行了整理。 二、项目运行情况以上研究结果,发表文章6篇,其中SCI收录2篇,EI收录1篇,CSCD收录3篇;申请发明专利1项。先后直接协助培养参与本项目的博士后1人,博士2人,研究生3人。此外,参加国内学术会议2人次,参加国际学术会议2人次。