利用基因芯片、蛋白质芯片等高通量生物检测技术识别疾病的分子标记是现代组学与系统生物学领域中最重要的问题之一。但是,目前识别疾病标记物的研究结果的重复性很低,引起了研究者对高通量生物检测技术可靠性的质疑,已经成为制约应用高通量技术进行组学研究并合理解释其结果的关键性问题。因此,我们提出根据在复杂疾病中分子相关变化的生物学特征来评价基因与蛋白质表达组研究中的重复性问题(1)我们将提出兼具直观性与统计严谨性的POGR指标,可以更合理地评价高通量疾病标记发现的重复性,减少研究结果的不确定性;(2)我们侧重研究关键的数据预处理与分子标记识别方法对发现结果的重复性的影响,探讨提高组学研究重复性的可控制因素; (3) 对目前利用小规模数据识别疾病标记的的重复性分析可以提示切合实际的样本量,减少目前实验设计的盲目性;(4)试图通过比较不同病种的标记列表的一致性与不一致性分析疾病相关性变化与特异性变化。
high-throughput;disease biomarker;reproducibility;functional analysis;
项目按计划完成了相关重复性指标的构造,并应用于评价多种高通量检测技术识别的分子标记物的可重复性,包括(1)结合蛋白质互作网络和共表达关系,提出了从功能层面上评价差异表达基因的重复性指标。(2)通过比较癌相关差异蛋白峰的重复性,分析了影响从质谱数据中识别差异蛋白峰的因素,从而为生物学家选择质谱数据预处理算法提供参考。(3)完善了发现系统性扰动的癌相关通路的算法,并开发了相关的生物信息学软件GO-function。(4)通过比较不同癌型中差异高低甲基化基因的功能一致(重复)性,揭示了不同的癌型具有类似的甲基化模式,同时也证明癌症相关的高甲基化和低甲基化基因倾向于影响不同的癌相关功能。(5)利用分层FDR方法,寻找差异表达信号微弱的数据中的差异表达信号,并比较不同数据集之间差异表达信号的功能一致性。本项目已发表论文23篇(SCI收录14篇);另外尚有3篇论文正在2审。本项目的研究成果为评价从高通量数据中发现的疾病标志的可重复性以及寻找可重复的疾病标志提供了依据和方法。