本研究针对全基因组关联研究数据的特点及传统频率学方法的诸多限制,引入贝叶斯因子方法筛选与疾病相关的SNP位点,利用Monte-Carlo模拟,在不同的遗传模式、样本量及SNP密度条件下,与传统的多重检验方法假阳性发现率(FDR)进行全面系统的比较,选择一种稳定性及准确性较高的方法进行疾病相关易感位点选取,同时,确定基因(环境)互作网络的变量域。针对目前实验研究无法识别基因(环境)交互作用的现状,本研究在前期研究的基础上提出利用改进的决策树ID3算法结合贝叶斯网络K2算法构建基因(环境)相互作用的贝叶斯网络,并且与多因子降维方法进行比较,利用Monte-Carlo方法和bootstrap技术对两种模型进行评价。最终确定不同条件下GWAS数据分析策略。将上述方法模型用于全基因组关联分析实际数据中识别易感位点和基因(环境)的交互作用,为复杂疾病的遗传学研究提供算法支持。
complecated diseases;environment;genetics;prevention;risk factor
本研究采用和发展了加权回归模型、加权分布模型、限制性立方样条、广义最小二乘以及层级贝叶斯模型等统计学方法,分析了环境、基因因素对复杂疾病的发生和发展所起的作用及由基因多重比较所引起的选择性报告偏倚问题,主要结果有①利用随机效应模型完成了基因多态性位点和药物交互作用研究,确定基因多态性位点与药物交互作用导致了药物在不同患者间的安全性及有效性的差别。以血管紧张素转换酶抑制剂治疗成人原发性高血压引发的咳嗽副作用为例,对ACE I/D位点的突变和药物的相互作用在不同种族和遗传模式下进行了比较,为ACE类药物的个性化治疗提供了依据,结果显示在东亚人群的结果显示,等位基因D的携带者其咳嗽副作用的发生率较低。②利用限制性立方样条、广义最小二乘法和随机效应模型分析了环境因素如饮酒与类风湿关节炎剂量效应关系。结果显示,两者间存在非线性关系,中低剂量的酒精摄入对于类风湿性关节炎有保护作用,RR=0.86,95%可信区间为(0.78, 0.94)。从具体的剂量上预测得出,与不饮酒者相比,每天饮酒3g的人的RR值为0.93 ,95% 可信区间为(0.88, 0.98),每天饮酒12g的人的RR值为0.88 ,95% 可信区间为(0.78, 0.99),每天饮酒15g的人的RR值为0.91,95% 可信区间为(0.81, 1.03),亚组分析表明,女性(危险性降低约19%)和长期饮酒者(>10年)(危险性降低约17%)更易获得中低剂量饮酒的保护。同时,研究了环境暴露茶的摄取对乳腺癌、结直肠癌、肝癌、前列腺癌以及胃癌发生的预防作用。研究结果显示,普通茶的摄入量对癌症的发生不存在剂量效应关系,不能够对上述五种癌症起到保护作用,亚组结果显示,女性摄入红茶甚至会提高乳腺癌的发生危险。③针对选择性报告偏倚和发表偏倚,提出了一种基于平滑方差的加权回归模型,完成了各种不同条件下基因关联性分析发表偏倚检验方法的一类错误和统计效能模拟比较研究,结果显示各方法的性能随条件不同而变化,总体上,本研究提出的方法在控制一类错误的情况下有较高的统计检验效能。最后根据模拟结果确定了不同条件下的检验分析策略,并且提供了一整套运用灵活的R函数。