分子生物技术的迅猛发展使得大规模测定标记基因型数据成为可能,利用标记信息对疾病,特别是复杂疾病的基因定位越来越受到生物统计学家的关注。众多研究表明,相对于应用单核甘酸多态性标记(SNP)的单位点关联分析,应用单体型数据通常能更有效地对复杂疾病的基因进行定位。本项目主要研究复杂疾病的单体型关联分析方法,特别是对常见疾病-稀有单体型的定位问题进行深入研究。拟将本人所提出的基于病例-对照数据应用正则化广义线性模型(rGLM)进行基因定位的方法(Genetic Epidemiology, 2008)作为切入点,对常见疾病-稀有单体型的定位问题进行深入研究,比较现存的单位点、(稀有)单体型关联分析方法,并将rGLM方法推广到家系数据,解决存在遗传印记下方法的改进,进而将rGLM方法用于合并病例-对照和家系数据的联合分析上,同时在广义线性模型框架下实现对全基因组数据的基因定位。
rare variants;next generation sequencing;DNA pooling design;association study;penalized regression
基因组关联研究已经发现许多与人类复杂疾病相关联的遗传变异。但是研究人员已经清楚地认识到这些遗传变异仅能够解释复杂疾病遗传风险的很小的一部分。对于重要而又解释不了的遗传风险,一种可能的原因是许多稀有变异以及它们之间的交互作用所导致。第二代基因组测序技术为千人基因组计划的实施提供了有力的技术支持,可以将上千个体的基因组序列得到,在进一步通过比较基因组序列,这使得海量的稀有变异数据的获取成为可能。由于稀有变异个体数在群体中占的比例非常稀少,通常小于千分之五。这需要很大的样本量才能在测序中发现稀有变异个体,测序的花费会变得非常昂贵。本项目正在这种大背景下研究了如何有效地发现与识别稀有变异。项目组成员阴小林及其合作者利用DNA池设计的思想提出了一种全新的称为基于池设计的变异识别算法,该方法可用于检测稀有变异的位置,估计稀有变异的基因频率以及识别稀有变异个体。大量的基于模拟数据和真实数据的模拟实验研究表明,该方法比现有的几种方法在变异池、变异位点的发现及变异个体的识别等方面更加有效。当海量的稀有变异获得之后,随之可被应用到对复杂疾病关联研究当中。对于复杂疾病的关联分析,全基因组关联分析研究大都是基于常见疾病-常见变异的假设前提下。但是,对于常见疾病-稀有变异,关联分析将变得非常困难。比如在精神疾病,心血管疾病,癌症等复杂疾病中都发现了稀有变异起着不容忽视的作用。项目负责人郭伟及其合作者利用LASSO线性回归方法对病例-对照数据的稀有变异做了关联分析研究。并将该方法应用到17届国际遗传分析会议(Genetic Analysis Workshop 17,GAW17)提供的小外显子基因数据上,提出的关联检验方法主要是通过加权或者不加权的方式来合并稀有变异变量,合并后再利用常规的关联分析方法进行检验。项目负责人郭伟及其合作者也研究了基于家系数据的稀有变异关联分析。给出了如何更好的合并稀有变异从而得到更高的检验效率,考虑了数量性状和质量性状两种不同类型数据的关联检验的处理,并且提出了如何通过加权合并稀有变异且同时考虑带惩罚的回归分析方法对家系数据进行稀有变异的关联分析。提出的方法与著名的家系统计分析软件FBAT进行比较研究。并且对实际数据进行分析比较。该统计方法已经做成软件,betafam,可在R-cran下载。