更精确、更系统地掌握多基因复杂疾病的发生、发展机制是现代遗传流行病学最重要的前沿研究内容;心脑血管疾病和肿瘤等多基因复杂疾病,受到多个基因位点及环境因素的影响,它们(或这些因素)之间存在着复杂的高阶交互作用;如何对影响复杂疾病的多个SNP位点产生的交互作用进行有效的处理与分析,是当前遗传流行病学和生物信息学面临的重大课题。本项目针对当前多基因复杂疾病易感性研究主要采用传统参数统计分析方法存在的不足,具体通过对现有的结直肠癌遗传易感SNP数据的分析处理,提出采用多因子降维法(MDR)结合BP神经网络(BP-NN)技术对受到多个SNP位点交互作用的多基因复杂疾病进行数学模型化处理研究,并用BP-NN、支持向量机(SVM)和非线性回归等方法对复杂发病的风险进行预测分析与综合评价,以建立适合于多基因复杂疾病的高可信度风险预测分析技术体系;对表观遗传学和生物信息学的研究与发展也有十分重要的促进作用。
Interaction;Polygenic complicated diseases;MDR;Crossover analysis;Neural network
研究背景结直肠癌、心脑血管疾病和肿瘤等多基因复杂疾病,受到多个基因位点及环境因素的影响,这些因素之间存在着复杂的高阶交互作用;如何对影响复杂疾病的多个基因位点(包括基因与环境)产生的交互作用特别是高阶交互作用进行有效的处理与分析,是当前遗传流行病学和生物信息学面临的重大课题。研究方向本项目针对当前多基因复杂疾病中基因与环境(基因)交互作用研究主要采用传统参数统计方法存在的不足,通过对现有结直肠癌等疾病的分析,提出采用生物信息学方法学和统计学的新技术方法对受到多SNP位点交互作用的复杂疾病进行数学模型化和统计方法研究,并用统计技术方法对复杂发病的风险进行预测分析与评估。研究内容(1)研讨了Crossover analysis结合logistic regression模型分析基因-环境之间的交互作用;(2)研讨了MDR结合logistic regression模型分析基因-环境之间的交互作用;(3)利用Logistic regression和Risk scores分析了脑卒中等疾病的危险因素,并进行了风险评估研究;(4)讨论了BPNN采用结合PDM和聚类分析研究复杂疾病相关的SNPs数据的分析方法。主要结果(1)基于Crossover analysis-Logistic regression方法能较好地分析两因素基因-环境之间的交互作用(相加和相乘);(2)将MDR(发现高价效应的能力强)与Logistic regression(能很好分析主效应)的方法相结合分析基因与基因(环境)之间的交互作用,效果更佳,是对肿瘤等慢性非传染性疾病的基因-环境多重病因效应估计的有益尝试;(3)采用logistic regression和risk scores方法,可以有效地对个体未来一段时间内发病风险进行预测与评估,并据此提出相应的预防措施;(4)采用BPNN结合PDM和聚类分析的方法策略能较好的检测出易感SNP及其交互作用的模式。科学意义本课题基于疾病基因组与环境基因组研究提出的交互作用的序列技术方法,无论在解决生命科学的实际问题上,还是发展生物信息学的技术方法上,该课题研究不仅对遗传流行病学和生物信息学的研究与发展有十分重要的促进作用,而且还存在着潜在巨大的临床医学应用前景和价值。