在人类复杂疾病的基因定位研究中,并存疾病(comorbidity)是一个非常重要的问题,一个病人通常同时患有两种或两种以上的疾病,特别是精神疾病和行为疾病。例如,患有忧郁症的病人通常还伴有焦虑与沮丧。为此,人们通常收集许多与之相关的表型变量进行研究。研究表明,同时分析多个表型变量比单独的分析每个表型变量的功效要高,而多维表型变量的关联分析要比单个表型变量的关联分析复杂的多。尽管已有一些多维表型变量的分析方法,但它们忽视了表型变量间的结构信息及环境因素的影响,并存疾病的关联分析研究仍处于探索阶段。本项目中,我们利用贝叶斯网来进行表型变量间结构的学习,把其应用到多维表型变量的建模中,进而提高关联分析的功效;同时我们调整环境因素的影响,给出基于环境因素的多维表型变量的非参数关联分析方法;最后我们借助于遗传位点间的连锁不平衡(LD)信息,提出基于单倍型的多维表型变量的关联分析方法。
nonparametric statistics;multivariate phenotype;association analysis;multiple longitudinal variate;multiple testing
在人类复杂疾病的基因定位研究中,一个病人同时患有两种或两种以上疾病的现象越来越常见。研究者收集的数据中通常会有与疾病相关的许多表型变量。面临含有多个表型变量的遗传数据,传统的统计方法只是单独的对每一个变量做检验,然后进行多重检验的调整。然而疾病变量之间往往具有很强的相关性,多重检验必将导致功效的降低,不能很好的用于基因定位的关联分析研究。已有研究表明,同时分析多个疾病变量势必会增加定位致病基因的可能性。但是,在关联分析研究中,对多个表型变量同时进行建模的统计方法还很少。本项目就是以此为动机,以复杂疾病基因定位研究中多疾病共存的问题及多表型变量的遗传数据为驱动,提出了一系列用于多维表型变量遗传数据关联分析及其相关问题研究的统计方法。在考虑环境因素影响方面,我们首次给出了在多维表型变量关联分析研究中调整环境协变量影响的非参数统计方法。我们的方法既能很好的控制检验的第一类错误,又明显优于没有调整环境因素影响的传统方法。在纵向遗传数据分析方面,我们提出了分析多维表型变量纵向数据的关联分析方法。该方法的特点在于可以考虑基因-基因、基因-环境以及基因-时间之间的交互作用。在基于单倍型的关联分析方面,我们通过考虑变量间的结构信息给出了单倍型之间相似性度量,根据该相似性度量,我们提出了基于U统计量的非参数关联分析方法。在多个遗传位点关联分析的相依多重检验方面,我们首先提出了数据驱动的模型选择方法对染色体进行分块,然后把他人2009年发表在JRSSB上的相依多重检验方法进行了推广并很好的应用到基因组关联分析研究中。本项目不仅注重统计的理论与方法研究,还特别注重统计方法在实际中的应用及算法研究。我们的研究成果最终发表在JASA、BMC Bioinformatics等统计学及生物信息学国际著名杂志上。