基于质谱技术的无标记定量是蛋白质组学研究的关键技术之一。本项目将在收集、整理典型数据集和典型计算流程的基础上,创新研究蛋白质组学中无标记定量质谱数据处理中的关键算法- - 定量信息提取算法。主要内容包括对图谱定量指标进行优化筛选,并完成相应算法的实现、评估和优化;将先验知识和数据统计分析结果结合起来,设计、实现并评估肽段定量指标计算的迭代算法;对同位素峰匹配误差、噪声去除等问题进行数据驱动和理论分析相结合的建模分析,以提高低丰度肽段定量指标计算的稳健性和灵敏度;并综合研究成果,构建、优化、验证整套无标记定量算法。本研究的目的是提高算法的精度和可重复性,为无标记定量数据处理提供性能优良的关键算法,为大规模生物标志物发现等应用研究提供信息学支持。
label free quantification;algorithm research;statistics analysis;proteomics;biological mass spectrometry
根据研究计划,项目组完成了6批典型数据集的收集和整理、图谱水平和肽段水平定量指标的筛选和优化,完成了整个算法流程的设计和优化,提供了一个开源的数据分析工具。在研究中,基于统计分析和案例分析,优化了鉴定分析流程,梳理了定量分析的算法步骤和分析流程。基于液相色谱和质谱分析的基本原理,通过参数优化、算法对比分析和数学建模,提出了一个计算速度快、定量鲁棒性好和精度高的无标记定量分析流程。在母离子误差校正、信号强度相关差异显著性统计检验、并行实验间交叉搜索、肽段离子流色谱峰的平滑滤波等几个问题上提出了新的思路和方法。项目支撑了两名博士生的学位论文研究,支持了项目组成员多次参加国内国际会议,发表了10多篇研究论文。