微阵列技术可同时获得大量基因的表达谱,已广泛应用于多因素复杂疾病研究。微阵列数据分析方法的研究已成为卫生与医学统计学、数据分析方法学研究领域的重要任务和热点问题,但目前尚缺乏此类数据分析方法的完整体系及分析软件。本项目拟在总结评价现有单基因分析方法的基础上,构造混合效应模型单基因分析检验统计量,定义新的富集得分;并考虑多基因、社会心理等因素及其相关性在复杂疾病发生中的效应,建立潜变量分析与混合效应模型相结合的潜变量混合效应模型,基于该模型,提出新的多因素复杂疾病微阵列数据富集分析方法;并利用模拟实验和实例数据验证该富集分析方法的特性和检验效能。本项目的开展可充分挖掘微阵列数据中差异表达信息,深层次研究复杂疾病的基因功能;并可为多因素复杂疾病的预防、诊断、治疗和发病机制的研究提供重要线索,为后基因组学中功能基因表达研究提供统计分析方法支持,具有明确的针对性和实用价值。
multi-factor complex diseases;microarray data(MD);gene set;enrichment analysis;mixed effect model
微阵列技术可同时获得大量基因的表达谱,已广泛应用于多因素复杂疾病研究。基因表达水平间往往存在相关性,其分布未知,而且基因表达水平与其复杂的影响因素间的具体依存关系不明确,往往表现为复杂的非线性关系;另外,微阵列数据具有高维、样本量小、多层次和关系复杂的特点,因而不满足一般统计分析方法所要求的前提条件。如果仍用一般方法进行统计推断,则结论的可靠性将会受到不同程度的削弱,甚至出现错误的分析结论。因此,有必要对多因素复杂疾病微阵列数据统计分析方法进行发展。本项目用Monte Carlo法比较评价微阵列数据的单基因分析方法,将基因间相关性从不同角度纳入模拟实验数据进行基因集分析方法检验效能的比较,模拟实验和实例分析结果表明基于模型构建的基因集分析方法有效考虑了基因间的相关性。构建微阵列数据单基因分析混合效应模型检验统计量及其常用协方差阵结构,定义基因富集得分。采用主成分分析对基因集构建潜变量,建立潜变量混合效应模型,提出基于潜变量混合效应模型的微阵列数据富集分析方法,用模拟实验和临床实例数据验证其特性与检验效能,并与其他方法进行比较,分析结果表明结合已知的生物学知识和证据,基于混合效应模型的基因富集分析方法比其他方法更容易发现较多的有生物学意义的相关通路,具有较高的筛选率、灵敏度。本项目富集分析方法克服了传统模型的局限性,可分析具有复杂关系的非独立数据,不仅考虑了基因间的相关性,而且更有效地将微阵列数据信息与外部基因相关知识相结合。因此,本研究对于充实和完善现有的微阵列数据富集分析方法,充分利用微阵列实验的海量基因信息,深层次研究基因功能具有重要意义。