代谢组学数据解析为代谢组学研究中至关重要的步骤。本项目拟针对代谢组学数据解析不确定性的现状,充分考虑代谢组学数据的固有特性(如,高维、高噪、小样本以及易含奇异样本和非线性等),以传统化学计量学方法为基础,引入并完善机器学习领域中的树形算法、全局优化和模型组合技术,发展代谢组学数据预处理、模式识别等分析算法,同时,结合核磁共振技术,开展代谢组学技术在肺癌早期诊断中的应用研究。力争通过算法的构建及其应用研究,获得多种适合于代谢组学数据特性的高性能的生物化学计量学方法,建立高通量代谢组学数据分析的信息学理论和方法,为后基因组时代功能基因研究提供有效而实用的工具,同时,发现潜在的肺癌标志物,为肺癌早期诊断提供指导,此外,本项目研究还能丰富化学计量学基础理论,提升化学计量学的应用价值。
chemometrics;machine learning;data analysis in metabonomics;early diagnosis of lung cancer;
项目开展三年来,我们已全部完成该项目计划内容,达到了预期的研究目标。在本项目中,针对肺癌危害性大,且其早期诊断尚缺乏特异性标志物的这一问题,我们选取了血清为研究对象,采用核磁共振波谱为测量手段获取了正常组和肺癌组(包括治疗后复发组和新诊断未经治疗组)的血清样本1H NMR谱图。同时,针对代谢组学数据解析不确定的现状,充分考虑代谢组学数据的固有特性,以传统的化学计量学算法为基础,引入并完善机器学习领域中的树形算法、全局优化算法和模型组合技术,成功发展了多种适合于代谢组学数据特性的化学计量学算法,并将其用于肺癌代谢组学数据解析,新发展的算法包括引入粒子群优化算法(PSO)构建了全局最优的偏最小二乘-判别分析(PSO-PLSDA和PSO-SVWL-PLSDA)和分类树(PSOCT);引入Adaboost.M2来提高PLS-DA性能(BPLSDA.M2);为提高被组合的子模型间的差异性,改善组合效果,结合PSO与组合技术(bagging),用于提高分类树性能(PSOBAGCT);采用bagging组合不同建模算法,即PLS-DA、径向基函数网络和分类树,构建一个性能优良的组合模型(BPRC)。本项目中所构建的数据解析方法用于肺癌血清代谢组学数据解析的结果表明各类血清样本间的代谢差异能被准确识别,同时,乳酸、糖蛋白、脯氨酸、谷氨酰胺和丙氨酸、苏氨酸被显示在疾病组中的含量要明显高于健康组的含量,而相对于正常组而言,蛋氨酸、脂质体和三甲胺在肺癌患者中显示了明显低的含量。同时,三甲胺和脂质体在两疾病组中显示了显著性的差异。且各种算法获得结果基本一致,并与文献一致的。 因此,在本项目中,通过算法的构建及其应用研究,我们成功获得了多种适合于代谢组学数据特性的高性能的生物化学计量学方法,建立了高通量代谢组学数据分析的信息学理论和方法,为后基因时代功能基因研究提供有效而实用的工具,同时,发现了部分潜在的关键性的肺癌标志物,为肺癌早期诊断提供指导;此外,本项目中发展的多种新型的建模算法也丰富了化学计量学基础领域,提升了化学计量学的应用价值。