本项目以保守非基因DNA(CNG),非编码RNA和内含子等基因组非编码序列为对象,综合运用各类信息学方法,多元统计方法,判别分析方法,资料挖掘方法,网络图论方法,及RNA结构预测软件等研究CNG的序列特征和分布规律, 研究22核苷小RNA的序列结构特征和分布规律, 研究5'和3'UTR保守序列的信息学特征, 改进对转录起始翻译起始和第一外显子的预测, 研究内含子与基因组中ORF组织的关系,探索内含
选择内含子,启动子和微RNA三类具有明确功能的DNA非编码区为研究重点,探讨编码规律,并在此基础上找到识别可变剪接位点,启动区和转录起始位点的算法。提出转录模体距离保守性的概念,构成微RNA的8mer字库,研究了蛋白质核酸结合能在识别各类剪接中的作用。从mRNA结构和tRNA拷贝数两个角度对mRNA信息可能影响蛋白质结构进行了严格的统计检验,证明mRNA折叠是确定蛋白质二级结构的不可忽略的因素。研究了人类基因组中Alu序列L1序列等进化中最活跃元素的特性,指出基因组编码信息量在进化中扩增的规律。研究了噬菌体操纵基因相互作用网络的动力学,通过此典型过程发现生物开关中可能普遍存在的拓扑学规律。癌症是一种基因信息病,本项目的理论工作还和癌症研究联系起来,提出了治癌的热力学途径,建议用电场和超声改变细胞间信息流的方向从而治疗癌症。