串联质谱技术结合数据库搜索策略鉴定蛋白质,可以满足组学研究高通量、自动化的要求,已成为人类蛋白质组表达谱研究的重要技术路线。数据库搜索策略极大地增强了生物质谱数据的解析效率,但仍然存在着灵敏度不足、准确度较低等诸多瓶颈。不同搜库算法原理的差异使其能获得不尽相同的搜索结果,极具互补性。合理整合多种数据库搜索引擎的结果可以有效提高质谱数据的解析率、增加鉴定肽段数目,同时提高鉴定蛋白质的置信度水平。本项目旨在以随机数据库搜索策略为基础,结合高精度质谱数据的特点,引入统计学模型和机器学习算法建立多种数据库搜索引擎质谱数据分析、质量控制和可靠性评估的标准,将多搜库结果整合转化为候选肽段排序问题,并建立客观的评价体系,在保证数据集置信度的基础上有效整合多种搜索引擎鉴定的肽段,为后续生物学问题研究提供更完备、更可信的肽段和蛋白质列表。
tandem mass spectrometry;multiple database search engines;peptide and protein identification;quality control;integration method
串联质谱技术结合数据库搜索策略鉴定蛋白质,可以满足蛋白质组学研究高通量、自动化的要求,已成为人类蛋白质组表达谱研究的重要技术路线。不同搜库算法原理的差异使其能获得不尽相同的搜索结果,极具互补性。合理整合多种数据库搜索引擎的结果可以有效提高质谱数据的解析率、增加鉴定肽段数目,同时提高鉴定蛋白质的置信度水平。本项目综合了数学、统计学、质谱信息学等多学科的优势,对蛋白质组质谱数据多种搜索引擎鉴定结果的分析流程、质量控制和整合方法进行了深入研究。目前项目研究期已满,顺利完成了项目的各项研究任务,并取得了一系列成果建立了Mascot、SEQUEST、X!Tandem、MassMatrix、Comet、Morpheus、MS Amanda和MS-GF+八种搜索引擎的标准分析流程,并实现了特征参数的筛选和自动化提取;发展了高精度质谱数据质量误差校正方法,改进了多种搜索引擎鉴定结果的质量精度和准确性;发展了多种搜索引擎鉴定结果质控和整合的新方法,实现了Mascot、X!Tandem、Comet、MS Amanda、Morpheus和MS-GF+六种搜索引擎的统一质控和结果整合,较单种搜索引擎常规鉴定可以多获得27.56%~158.44%的可靠结果,谱图解析率提高了6.78%~21.72%;建立了串联质谱数据多种数据库搜索引擎搜索、质量控制、结果整合以及可靠性评估的自动化分析软件平台。基于项目研究成果,研发了质谱数据分析软件PepDistiller、FTDR 2.0和SILVER,已被30多个国家和地区下载500余次,获得了广泛的应用;基于项目成果应用构建的质谱数据资源库ProteomeView和肝脏知识库LiverAtlas,共获得国内外超过91,000次访问;并且,项目发展的高通量蛋白质组质谱数据分析软件平台已成功应用于人类染色体蛋白质组计划、中国人类蛋白质组计划以及人类肝脏蛋白质组数据集整合分析中,至今已完成超过4亿万张谱图的解析。