全基因组关联研究(GWAS)是利用高通量测序和分型技术,对研究对象的基因组中序列变异或单核苷酸多态性(SNP)进行分型,并利用生物统计学和生物信息学的方法,检验基因与复杂疾病的关联性,全面揭示疾病发生、发展与治疗相关的遗传特征。近年来,GWAS研究取得了骄人的成绩。然而,面对浩瀚的数据,现有统计分析手段明显落后于实际需求,无法深入挖掘GWAS数据中蕴含的丰富信息。本研究系统、全面地探讨全基因组关联研究中的统计学问题,包括优化设计、降维分析和基于不同水平(SNP水平、基因水平、通路水平)的统计分析策略和方法。拟采用IBS核函数对多个SNP的信息进行综合;采用机器学习方法对高维数据进行降维,在保证一定的检验效能时,可以大大提高计算效率;采用计算机模拟试验评价方法的统计学性质;采用本系肺癌GWAS资料和网络共享GWAS资料对所提出的方法进行验证,通过不断修正,完善相应方法。
GWAS;statistical method;dimensional reduction;LASSO/SCAD;weighted
针对全基因组关联研究(genome-wide association study, GWAS) 费用高的特点, 课题组评价了多阶段研究设计的合理性和成本;针对GWAS数据“高维、小样本”的特征,系统综述和评价了常用分析的统计方法;并就高维数据降维方法进行了理论及应用研究。在理论研究中,我们着重研究了5类方法核函数类、主成分类、回归类、惩罚函数类、随机森林类。在全面评价现有方法的基础上,针对各方法的缺点,进行了相应的改进提出加权主成分分析(wPCA),用于检测低频位点;提出平稳LASSO/SCAD,以控制假阳性;增加随机森林校正协变量的功能;提出“多阶段组合降维”的降维分析策略。在应用研究中,我们对多个高维数据进行数据挖掘,开展了基于位点分析、基因分析、通路分析、网络分析、基因—基因以及基因—环境交互作用分析,从不同生物学角度探索表型相关位点,为后续机制研究提供了方法学基础。