新一代DNA测序技术的出现给在全基因组水平上开展DNA和蛋白质相互作用的研究带来了重大的机遇。本项目旨在发展基于新一代高通量DNA测序技术的DNA和蛋白质相互作用的研究平台,使之能够在全基因组水平上进行特定组织和细胞中转录因子等DNA结合位点的检测,以及开展相关基因表达调控网络的研究。针对目前新一代测序技术存在的样品需求量大、成本偏高、测序文库的制备存在一定偏性等问题,本项目将应用纳米纤维材料、生物编码技术以及滚环扩增技术等方法,争取发展一个能够针对微量样本(10纳克级DNA)、成本较低的新一代DNA测序平台,用于DNA与蛋白质相互作用的全基因组检测,并发展相应的生物信息学分析方法,开展基于DNA和蛋白质相互作用的基因表达调控网络分析和研究,针对至少10类重要的转录因子,研究其在5种肿瘤相关的细胞系、或肿瘤组织、或相关的干细胞等体系中DNA和蛋白质的相互作用和基因调控网络。
ChIP-Seq;MeDIP-Seq;K562 cell line;Gene regulation;DNA methylatiion
本项目成功构建了基于ERG1和Jun的ChIP-Seq方法和改进的MeDIP-Seq全基因组甲基化分析方法。在样本的测序文库构建方面进行了改进和优化实验研究,发展了相应的生物信息分析方法。针对白血病K562细胞系,研究了该细胞系在佛波醇和血红素等刺激下基因调控网络的变化规律。通过对K562细胞系中ERG1的ChIP-Seq数据分析,共得到了3.67M唯一匹配到基因组上的序列,共鉴定了13703个富集峰。其中11595个在TSS和TES 位点5kb以内,约占84.6%,发现有5162个富集峰位于基因的TSS上游和下游1kb,占整个峰数目的37.7%。考虑到同一基因内或附近可有多个ERG1的结合位点,共鉴定出与ERG1相关的基因3602个;在14,880个注释的长链非编码lncRNA中,570个lncRNA的附近(TSS和TSE的5000bp以内)有EGR1的结合富集峰。其中240个结合在lncRNA的TSS 1000bp以内。在microRNA转录起始位点1kb以内的富集峰,发现有38个EGR1富集峰位于microRNA的TSS 1kb以内。研究揭示在PMA诱导的K562细胞分化过程中EGR1及众多的EGR1的靶基因的表达发生了变化,说明EGR1很有可能是这一过程的关键调控因子。通过对K562细胞系中的MeDIP-Seq数据进行分析,该数据覆盖了近60.8%的人类基因组区域,表明MeDIP-Seq能够较好地获得全基因组DNA甲基化图谱;识别出约140000个不短于500bp的甲基化区域,但是95.2%的基因显示为非甲基化或低甲基化,只有873个基因的启动子区域显示有甲基化片段信号。分析了DNA甲基化和CpG位点密度的关系,结果表明DNA甲基化趋向于分布在中等CpG密度区域而非高CpG密度区域。DNA甲基化更趋向于分布在基因3’末端和基因间区,而非基因的5’末端。本项目的研究为深入认识K562细胞的基因调控网络提供了多层尺度的组学信息,为进一步进行K562基因调控网络的跨平台组学分析打下了基础。