修饰蛋白质串联质谱的鉴定是蛋白质组学中的一个研究重点。目前,修饰蛋白的串联质谱的数据分析,尤其是在修饰类型及修饰位点未知(即非限制修饰)的条件下,是一个新颖且十分具有挑战性的问题。本项目致力于基于蛋白质串联质谱数据的非限制修饰的蛋白质数据库搜索鉴定算法的研究。具体包括基于图理论的多肽序列标签推导算法、基于贝叶斯网络的串联质谱匹配打分算法、蛋白质数据库索引算法、多阶段质谱比对算法等蛋白质质谱数据分析领域中的多个关键技术问题。在提出的新的模型和算法的基础上,本项目拟设计一个修饰蛋白串联质谱的数据分析的原型系统,实现修饰蛋白鉴定、修饰类型发现、修饰类型与修饰位点分析等功能。同时,利用该系统对项目所研究的各种算法进行深入的性能分析与评价。基于此,本项目在完成修饰蛋白串联质谱数据分析的同时必将进一步揭示蛋白质翻译后修饰的种类和特征,对研究蛋白质功能多样性及解释具体的生命过程和现象具有十分深远的意义。
tandem mass spectra;protein identification;matching score;spectra alignment;parallel computation
本项目针对基于串联质谱数据的非限制修饰的蛋白质数据库搜索鉴定问题进行了深入的研究。具体的研究成果有1)利用GPU并行计算技术对现有的蛋白质数据库搜索鉴定引擎X!Tandem进行并行优化和加速。取得了单GPU卡加速4~5倍,4块GPU卡加速15~20的加速比。从而改变了搜库瓶颈的现状;2)提出了多肽序列标签推导及基于多肽序列标签的蛋白质数据库搜索算法。给出了多肽序列标签推导的数学模型及实验比较结果,该结果与现有的GutenTag和PepNovo方法比较具有可比性或部分优于该算法;3)提出了多阶段了蛋白质串联质谱比对算法。通过该算法,可以实现带有非限制修饰的蛋白质的串联质谱之间的匹配打分。该算法的结果和现有的SA算法结果进行了比较,具有更好的准确率和使用性。4)针对串联质谱数据质量低、噪音多;没有很好地利用串联质谱中离子的强度信息等问题,提出了基于信息熵的、基于kNN的和基于决策树的多种蛋白质串联质谱匹配打分算法。这个方面的结果有助于更加准确的蛋白质数据库搜索和从头测序鉴定。本项目在完成修饰蛋白串联质谱数据分析的同时必将进一步揭示蛋白质翻译后修饰的种类和特征,对研究蛋白质功能多样性及解释具体的生命过程和现象具有十分深远的意义。