全基因组关联研究(GWAS)目前已经成为复杂性疾病致病机制研究最主要的手段。近年来,GWAS取得了骄人的成绩。然而,面对海量的数据,现有统计方法和分析策略存在许多统计学问题,已明显落后于实际需求,无法深入挖掘GWAS 数据中蕴含的丰富信息。本研究探讨基于基因水平的全基因组关联研究中的统计方法和分析策略,包括首先利用先验生物学信息进行降维;其次基于基因水平采用稀疏偏最小二乘回归、惩罚回归模型、机器学习等方法进行重要SNPs筛选;最后采用logistic核函数回归模型和各种主成分回归模型等多位点分析模型在基因水平对多个SNPs的联合作用进行统计分析。
英文主题词Genome-wide association study;hierarchical model;prior information;statistical strategy;dimension reduction