新一代mRNA-Seq、高分辨质谱等高通量测序和质谱技术,为通过整合分析各个层面的组学数据而阐明基因组结构与功能带来了巨大机会和挑战。然而,数据覆盖度不足、完整性通常难以评价、各层面组学数据间基于生物或技术因素的差异性与异构性等瓶颈问题,极大限制了组学数据的完整与精确整合。针对这些瓶颈,本项目将发展、评价与验证一种基于双向聚类(bi-clustering)的高通量基因组,转录组和蛋白组数据比较和融合方法。围绕这一目标,将以一种模式真核生物体系(酿酒酵母)和一种非模式真核生物体系(微拟球藻)为主要研究对象,重点研究双向聚类算法聚类划分的覆盖度、灵敏性、精确性、特异性、关键阈值及最佳适用范围。进而运用该算法于酿酒酵母等具海量对照数据的模式生物中验证重要基因聚类等的准确性;同时,运用于微拟球藻中挖掘营养缺乏诱导产油等过程的全基因组调控网络。本项目将为海量组学数据融合提供一种准确性更高的创新方法。
genomics;proteommics;bi-clustering;model organism;microalgae
本项目题目 “利用高通量基因组和蛋白组数据双向聚类融合的方法研究生物过程”(批准号61103167)。本项目基本按计划完成,建立完整的基因组和蛋白组数据整合分析方法并在模式生物上成功应用。 在方法开发方面,本项目利用国际领先的创新性数据模型和分析思路整合不同层面组学数据,提出了一系列高准确性创新算法。已基于该项目已成功建立针对模式生物(酵母和小鼠等)完整的基因组、转录组和蛋白组数据整合分析方法。发表相关SCI论文9篇,已总共被引用100次以上。被Nature,Nature protocols,Molecular & Cellular Proteomics等综合或行业顶尖杂志多次引用。 方法应用于能源微藻功能基因组研究中,也在Plant Cell、PLoS Genetics登杂志上发表多篇组学数据整合分析论文,成果被国际性专业媒介高度评价(如被Plant Cell编辑评价为“开创性的工作”(ground breaking insight),被GenomeWeb等专业媒体作为亮点介绍等)。相关整合方法也被成功运用于国内外数十个基因组研究项目中。