全基因组关联研究中的降维策略和统计分析方法研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

全基因组关联研究中的降维策略和统计分析方法研究

项目名称：全基因组关联研究中的降维策略和统计分析方法研究
项目类别：面上项目
批准号：81072389
申请代码：H2611
项目来源：国家自然科学基金
研究期限：2011-01-01-2013-12-31

项目负责人：陈峰
负责人职称：教授
依托单位：南京医科大学
批准年度：2010

中文摘要：

全基因组关联研究(GWAS)是利用高通量测序和分型技术，对研究对象的基因组中序列变异或单核苷酸多态性(SNP)进行分型，并利用生物统计学和生物信息学的方法，检验基因与复杂疾病的关联性，全面揭示疾病发生、发展与治疗相关的遗传特征。近年来，GWAS研究取得了骄人的成绩。然而，面对浩瀚的数据，现有统计分析手段明显落后于实际需求，无法深入挖掘GWAS数据中蕴含的丰富信息。本研究系统、全面地探讨全基因组关联研究中的统计学问题，包括优化设计、降维分析和基于不同水平(SNP水平、基因水平、通路水平)的统计分析策略和方法。拟采用IBS核函数对多个SNP的信息进行综合；采用机器学习方法对高维数据进行降维，在保证一定的检验效能时，可以大大提高计算效率；采用计算机模拟试验评价方法的统计学性质；采用本系肺癌GWAS资料和网络共享GWAS资料对所提出的方法进行验证，通过不断修正，完善相应方法。

中文主题词：全基因组关联研究；统计分析方法；降维；LASSO/SCAD；加权

英文摘要：

GWAS；statistical method；dimensional reduction；LASSO/SCAD；weighted

英文主题词： GWAS；statistical method；dimensional reduction；LASSO/SCAD；weighted

结论摘要：

针对全基因组关联研究(genome-wide association study, GWAS) 费用高的特点，课题组评价了多阶段研究设计的合理性和成本；针对GWAS数据“高维、小样本”的特征，系统综述和评价了常用分析的统计方法；并就高维数据降维方法进行了理论及应用研究。在理论研究中，我们着重研究了5类方法核函数类、主成分类、回归类、惩罚函数类、随机森林类。在全面评价现有方法的基础上，针对各方法的缺点，进行了相应的改进提出加权主成分分析(wPCA)，用于检测低频位点；提出平稳LASSO/SCAD，以控制假阳性；增加随机森林校正协变量的功能；提出“多阶段组合降维”的降维分析策略。在应用研究中，我们对多个高维数据进行数据挖掘，开展了基于位点分析、基因分析、通路分析、网络分析、基因—基因以及基因—环境交互作用分析，从不同生物学角度探索表型相关位点，为后续机制研究提供了方法学基础。

成果综合统计