2型糖尿病已成为第三位威胁人类健康的慢性非传染性疾病。通过建立包括基因组信息和环境危险因素与2型糖尿病之间的风险评估模型,并据此提供针对个体的个性化控制与干预措施,是目前流行病学国际前沿研究热点和未来个性化健康服务的发展趋势。本研究在建模方法上,首次在国内外采用支持向量机方法用于2型糖尿病风险建模,在建模因素上,综合考虑基因和环境危险因素对2型糖尿病发病的影响,首次在国内建立基于基因和环境危险因素的2型糖尿病风险评估模型。在人群选择上,在国内首次基于房山区大样本的队列随访人群进行建模,从而能够有效控制信息偏倚的产生,使纳入模型的环境因素更加准确。此外,由于选择的研究对象来自房山同一个地区,因此具有良好的遗传同质性,能有效避免由于人群混杂所导致的假阳性关联结果的产生。本研究将为2型糖尿病个性化干预和预防提供科学依据,对降低我国2型糖尿病的发病率,具有十分重要的理论与现实意义。
type 2 diabetes;support vector machine;risk assessment;gene and environment;model
本研究采用Logistic回归、神经网络、支持向量机三种方法,构建适合中国人群特点的2型糖尿病发病风险评估模型,为2型糖尿病高危人群筛查、健康管理和个性化预防提供科学依据。Logistic回归模型单独纳入传统危险因素或遗传风险评分时模型的AUC分别为0.647(95%CI0.623 ~ 0.670)和0.579(95%CI0.554 ~ 0.604);同时纳入传统危险因素和遗传风险评分时模型的AUC为0.670(95%CI0.647 ~ 0.693)。所有模型的Hosmer-Lemeshow检验P值均大于0.05。在传统危险因素模型的基础上,加入遗传风险评分后,模型的AUC增加,且差异有统计学意义(P=0.0002)。净再分类改进(NRI)指标为0.243(95%CI0.155 ~ 0.330),具有统计学意义(P<0.001);整体区分改进(IDI)指标为0.017(95%CI0.012 ~ 0.023),具有统计学意义(P<0.001)。单独纳入传统危险因素或遗传风险评分时模型的AUC分别为0.690(95%CI0.668 ~ 0.713)和0.579(95%CI0.554 ~ 0.604);同时纳入传统危险因素和遗传风险评分时模型的AUC为0.728(95%CI0.706 ~ 0.749)。在传统危险因素模型的基础上,加入遗传风险评分后,模型的AUC增加,但差异不存在统计学意义。单独纳入传统危险因素或遗传风险评分时模型的AUC分别为0.733(95%CI0.663 ~ 0.803)和0.562(95%CI0.484 ~ 0.640);同时纳入传统危险因素和遗传风险评分时模型的AUC为0.765(0.700 ~ 0.831)。在传统危险因素模型的基础上,加入遗传风险评分后,模型的AUC增加,但差异不存在统计学意义。结论与只纳入传统危险因素相比,同时纳入传统危险因素和遗传风险评分时T2DM发病风险评估模型的预测效果更好。与Logistic回归模型相比,采用神经网络或支持向量机构建的T2DM发病风险评估模型的预测效果更好。