恒河猴作为重要的灵长类模式动物,在疾病机制研究、药物临床前评估及分子演化等多个领域发挥重要作用。然而,受灵长类资源短缺、疾病模型构建困难等因素限制,目前恒河猴功能基因组学研究还不够深入,缺乏对注释信息的有效整合,对基因及其调控关系的注释缺乏系统性,严重制约着相关领域的基础与应用研究。本项目拟结合新一代测序技术,通过健康恒河猴多组织、多个体的转录谱研究,完善现有恒河猴功能基因组学注释。并通过生物信息学数据整合,进一步系统整合已发表的恒河猴注释信息,结合自产数据,建立完善的恒河猴数据库注释系统RhesusBase,从遗传、表达、调控等多个角度阐述恒河猴基因结构与功能。最后,在上述工作基础上,利用前期已建立的恒河猴代谢综合症疾病模型,开展基于深度测序的系统生物学研究,发现在代谢综合症发生发展中灵长类特异的调控关系,完善对代谢综合征生理病理及其调控机制的整体认识,为探寻新的治疗靶点提供理论基础。
Rhesus Macaque;Genomics;Bioinformatics;Database;Molecular Evolution
恒河猴作为非人灵长类模式动物,兼具环境因素可控、取材检测方便,以及基因组和生理病理接近人类的优势,在疾病机制研究、分子演化等多个领域具有重要的研究价值。然而,功能基因组学数据匮乏、基因结构注释混乱、研究平台不成熟等技术瓶颈制约了其应用。本项目首先建立了包含56种组织的猴组织样本库,开发了完善的生物信息学分析与评估流程,运用新一代测序技术对恒河猴多组织开展了系统的深度测序研究,总测序片段数达300亿条,对恒河猴基因组和转录组的覆盖率分别达到95%和98%。在这些数据基础上,我们开发了基因结构修正新算法,精确定义了猴全基因组两万多个基因的精细结构,清除了该领域之前在>30%猴基因结构注释中存在的错误。我们进一步整合并重分析了1667套高通量组学数据和65个在线数据库,对数据进行了标准化,并开发了完善的高通量组学数据平台,构建了一个集基因结构、表达调控、药物开发等信息于一体的猴“一站式”基因组知识库RhesusBase,总功能注释>58亿条,年访问量>100万次。在此基础上,我们开展了一系列以猴为研究视角,探索人类进化与复杂疾病的特色工作,发现了43例人类特有蛋白并提出了新基因的长非编码RNA起源假说;鉴定了猴多个层次的调控事件,并据此发现9295例人类特有调控事件;开展了特色的猴家系遗传学研究,发现了一例代谢疾病致病新基因。由申请人担任通讯作者,相关工作在Molecular Biology and Evolution、Nucleic Acids Research、PLoS Genetics等发表SCI论文7篇,获一项国家计算机软件著作权。目前,RhesusBase被BioMart等国际机构建立远程检索,美国Loyola Marymount大学将其作为生物数据库的典型案例在研究生课程中详述,Nature Reviews Genetics等将其作为非人灵长类研究领域的权威库进行引用。此外,我们开展的恒河猴基因组学工作也得到了国际同行的认可,被Faculty of 1000等专文评论,"新基因lncRNA起源"等假说得到诺奖得主Phillip Sharp等同行认同。长期以来,FlyBase、WormBase对果蝇、线虫等领域的研究起到巨大的推动作用,我们将进一步完善RhesusBase,填补非人灵长类研究的这一空白,为开展特色的猴基因组医学研究铺平道路。