研究基因组信息组织结构和规律对于认识生命本质、认识生命信息的作用具有重要意义。本项目围绕序列特征,应用生物信息学方法和技术研究基因组序列固有的本质特征,以序列特征辨别不同的基因组,识别不同的功能序列,由此发展基于序列特征的全基因组分析方法,以适应大规模基因组序列分析的需求。通过研究,提出并论证了基因组碱基关联性特征,该特征既反映基因组的复杂结构,也反映基因组信息组织的深层次规律;提出基于序列特征的系统发生分析方法,识别不同物种的基因组序列,研究进化关系;发展了基因组核小体定位分析方法,证明核小体定位的序列依赖性为68%,并分析了其基因表达调控机制;提出一种基于序列特征的核酸与蛋白质相互作用预测方法,将预测准确率提高到91.41%,ROC曲线下的AUC为0.913,达到国际先进水平;在序列特征研究基础上,提出DNA序列特征可视化模型和一种基因组序列的结构特征,发展出基因组功能区域分类方法;发展了新的水平转移基因识别方法,识别命中率相对提高幅度达31.47%;建立了一个基于特征的基因组序列数据库及分析平台。本项目研究成果将在高通量基因组数据分析以及宏基因组研究中发挥重要作用。
英文主题词genome; sequence feature; base-base correlation; evolutionary relationship; functional sequence.