利用1995年至2011年1月间完成测序的1272个原核生物的基因组,使用马尔科夫模型、贝叶斯分类等数理统计手段,挖掘基因组的序列组分中所包含的物种特异性特征,并开发一种有效的原核微生物的鉴定方法,使之可以有效用于环境微生物的高通量测序数据的分析,从而获得环境样品中微生物的种类、丰度,预测微生物与环境以及微生物之间的相互作用关系。该方法的成功发展将为环境微生物基因组测序数据提供强有力的分析工具。本项目还将把建立的新方法应用在2010年发表的124个人类肠道微生物样品的高通量测序数据上。通过分析每个样品中原核微生物的成分,比较微生物在不同样品中的丰度差异,识别健康人肠道环境中的核心细菌组以及健康人和肠炎患者的肠道细菌成分的差异,理解肠道微生物在人类健康中所扮演的角色。
environmental microbiology;species identification;high-throughput sequencing;;
近年来快速发展的高通量测序技术极大地促进了宏基因组学方面的研究,使得人们可以直接从环境样品中获得微生物的基因组序列,回避绝大多数微生物无法在实验室条件下纯化和培养的困难。然而它也为生物信息学的算法研究提出了挑战,集中在如何快速有效地从海量测序数据中预测复杂的微生物群落结构,同时回避近缘物种的混合基因组给序列拼接带来的困难。 针对细菌基因组中所包含的物种特异性特征,通过数理统计手段建立快速有效的环境微生物鉴定的新方法MetaCV。它在达到与BlastX相同精确度的同时,显著减少了计算时间近300倍,因此可以有效应用于宏基因组和宏转录组的高通量测序数据分析,从而获得环境样品中微生物的种类、丰度,预测微生物与环境之间的相互作用关系。进一步利用该方法和其它环境功能基因组学分析手段,通过研究109个Meta-HIT数据中的人类肠道微生物组,揭示了不同个体的微生物群落结构组成、代谢功能及其变化规律,并且预测了一批健康人肠道环境的“核心”微生物组。我们还对健康和牙周患病状态下的口腔微生物进行宏基因组测序与分析,重点研究了慢性牙周炎患者龈下菌斑微生物种类、丰度和基因组成情况,揭示了微生物组成和变化与慢性牙周炎的关系,从基因组尺度更为全面和深入地理解慢性牙周炎形成和发展机制。