稀有的遗传突变是导致复杂疾病的重要遗传变异之一。现有检验稀有突变和疾病遗传关联的统计方法存在统计力不足的问题。本研究拟用贝叶斯变量选择模型设计一个新型的统计方法来提高检验的统计力。同时,作为一个实际应用,本研究拟用新方法通过分析外显子序列的突变数据来定位骨质疏松症的新型易感基因。本研究不仅部分解决了稀有突变的检验统计力不足的理论难题,为稀有突变的关联分析提供高效的计算方法和有用的软件包,而且能为阐明骨质疏松症的遗传机制,预防和诊断骨质疏松症奠定基础,从而为进一步的候选基因研究提供研究内容。
Osteoporosis;Bayes;Genetic association;Meta analysis;Genotype imputation
针对复杂疾病的遗传关联研究中存在的一系列统计问题,本项目开展了相关的理论方法研究,并具体应用到骨质疏松症等疾病的基因定位研究,取得了一定的理论和实验成果。 理论成果包括①针对稀有突变检验遗传关联的统计功效过低这一问题,我们设计开发了一个高效稳健的统计方法。本方法采用贝叶斯变量选择模型,通过集成突变位点的先验信息使得致病突变被赋予较大的权重,从而极大地提高了关联检验的统计功效。相关方法已编制成计算机软件并公开发布;②针对传统的基因型补缺方法耗时严重且准确度低下的统计问题,我们设计开发了一个新的基因型补缺方法。新方法采用隐马尔科夫模型,摒弃了传统的在二倍体参考样本上的建模方式,通过直接在单倍体参考样本上建模而把计算复杂度从样本量的平方级别降到线性级别,极大缩短了分析时间。同时,由于利用了参考样本的所有信息,补缺准确度也得到极大提高。相关软件也已公开发表;③针对全基因组关联meta分析受异质性影响严重的问题,我们系统定量地研究了若干混杂因素,如种群分层、次等位基因频率和连锁不平衡等,对遗传异质性的影响,为meta分析及其解读提供了理论指导。 实验成果包括①通过综合分析本课题组产生的全基因组序列和基因分型数据,我们在大规模样本中系统开展了全基因组范围内稀有和常见突变的关联研究,首次发现了两个骨密度的易感基因SMOC1和CLDN14,同时成功验证了13个以前报导的易感基因,为骨质疏松症的防治提供了一定的遗传学基础;②使用相同的研究策略,我们还首次发现了体重指数这一骨密度相关性状的两个易感基因CTSS和NLK;鉴定了与肌含量关联的拷贝数变异,与骨密度关联的基因-基因互作效应等。 综上,本项目得到了顺利的实施,圆满完成了预期目标,取得了丰硕的研究成果,为下一步深入研究奠定了良好的基础。