诱导多能干细胞(iPSC)一定程度上摆脱了干细胞研究的材料来源和伦理限制,被誉为生命科学新的里程碑。本项目针对人类iPSC在分子层面开展生物信息学研究。将分析基因芯片和深度测序等组学技术针对iPSC产生的,包括基因表达、表观遗传和分子相互作用在内的,大量高通量数据,比较iPSC与胚胎干细胞异同,提出iPSC的高通量数据鉴定方法。进一步发展新方法集成上述异源、多层次数据,构建iPSC的动态生物分子网络模型,分析其功能模块和鲁棒性,研究细胞重编程调控机理。特别地,本项目将利用最优化、条件互信息熵、网络熵等数学和信息科学方法应对iPSC高维度、异源、多层次、海量数据和复杂数据结构,以及生物分子网络结构动态等挑战,建立基于生物分子网络的高通量数据分析及集成的新模型与算法,探索iPSC研究的重要生命科学问题。本项目的研究将为其他生物信息学问题的研究提供新方法并从分子层面深入对iPSC的认识。
Induced pluripotent cell;Optimization model and algorithm;Stem cell;Dimension reduction;Data integration
诱导多能干细胞(iPSC)作为干细胞研究的里程碑工作,迅速积累了包括基因表达、表观遗传和分子相互作用在内的大量高通量数据,本项目计划利用最优化、条件互信息熵、网络熵等数学和信息科学方法应对iPSC 高维度、异源、多层次、海量数据和复杂数据结构,以及生物分子网络结构动态等挑战,建立基于生物分子网络的高通量数据分析及集成的新模型与算法,探索干细胞研究中的重要生命科学问题。在基金委的支持和项目成员与合作者的共同努力下,研究工作按原计划顺利完成。我们初步建立了高通量转录组数据建模的理论和分析算法,特别是设计高维数据降维和异源、多层次、大规模数据集成的高效算法,开发基于数据集成的生物分子网络重建算法和软件。同时,我们应用发展的模型和算法到诱导多能干细胞,干细胞分化、癌症、药物等数据上,得到了具有重要生物意义的结果。 本项目申请时计划针对诱导多能干细胞的高通量数据,发展新的生物信息学方法,研究在生物分子网络的框架下集成数据、探索细胞重编程机理。项目执行过程中对以上三个方面的问题开展了深入的研究,在理论和应用两方面都取得了成果。(1)理论研究方面,针对项目书提出的诱导多能干细胞生物信息学的研究内容,发展了数学和信息学理论坚实的新方法,对高通量数据进行深入分析,设计集成异源、多层次、大规模数据的高效算法,开发基于数据集成的生物分子网络重建算法,建立更为确切描述细胞多能状态的动态生物分子网络模型。(2)应用研究方面,通过对高通量数据的分析和建模,聚焦细胞重编程机理等核心问题,为从生物信息学角度加深认识诱导多能干细胞提供强有力的支持。 共发表30篇标注了基金号的研究论文,其中27篇为SCI论文,SCI影响因子3以上的共18篇,多篇发表在Bioinformatics(3篇),Nucleic Acid Research(2篇) 等权威学术期刊。开发、编制了基于优化模型与算法的高通量数据分析软件7项,可供研究人员下载使用。依托本项目研究成果申请中国专利三项,美国专利一项。这些研究成果受到了广泛关注和引用。项目标注论文被国际国内引用196次(Google scholar);受邀参加组学大数据及计算系统生物学等重要国内国际会议邀请报告5次;培养博士生2名,获得后续资助4项,包括2项国家自然基金委优秀青年基金。