癌的发生和发展过程涉及大量基因的DNA甲基化、拷贝数及mRNA表达等异常改变。目前,在分析各种高通量组学数据时,一个基本的任务是要预先进行数据标准化处理,而各种标准化算法都假设疾病中差异基因的比例很小及差异上、下调的基因数目大致相等。然而,这种广泛采用的标准化假设很可能是不可靠的,可能会对筛选差异表达基因等下游分析有重大的影响。因此,本课题将全面分析在主要数据库中收集的关于癌研究的基因表达、甲基化和拷贝数等高通量组学数据,通过比较在癌与正常样本中这些分子改变的分布差异,评价几种主要的标准化方法,分析其影响生物学信号的偏倚程度。同时,我们将提出在原始信号中识别差异分子改变的方法,并论证其生物学意义。对每一种癌,我们分别采用多套独立的数据集分析分子改变的信号分布特点,以保证分析结果具有可重复性与可信性。本课题的研究结果将为合理分析高通量组学数据提供依据,具有基础性的重要意义。
cancer;systematic change;differential expression;normalization;
本课题全面揭示了癌基因组中各种分子改变的真实分布,评价了高通量数据标准化方法的合理性,进而挖掘高通量数据的真实生物学信号。我们以癌相关表达谱为研究重点,说明了采用传统假设的标准化方法会失查很多癌相关的上调差异表达基因并且发现很多假的下调差异表达基因。因此,我们不能在降低生物学信号的分析能力的前提下还进行标准化。本课题同时阐明了虽然非标准化可能会降低筛选差异基因的统计效能,但是对于同一癌型的不同的数据集,非标准化筛选出的差异表达基因的改变方向高度一致。这揭示了开发新的方法去发现在非标准化的数据中自然存在着的有效生物学信号是可行。本项目已发表论文10篇(SCI收录10篇,累计影响因子大于50);本课题的研究结果将为合理分析高通量组学数据提供依据,具有基础性的重要意义。