探讨单体型对连续表现型影响的关联研究,对了解基因对人类复杂疾病的影响有着深远的意义。通过研究单体型,有望找到很多人类复杂疾病的诱病基因。在关联研究中,由于很多基因数据与环境协变量的观测很昂贵或者很困难,因而,研究人员往往只能对部分研究对象观测其基因数据和环境协变量。在这种情况下,利用ODS抽样这种有偏抽样能提高效率并且节约成本。本项目在表现型为连续的关联研究中,基于ODS抽样机制和两阶段ODS抽样机制获得的基因型数据,研究单体型影响参数的统计推断问题。
association study;haplotype;ODS design;missing data;censoring data
探讨单体型对连续表现型影响的关联研究,对了解基因对人类复杂疾病的影响有着深远的意义。在关联研究中,很多基因数据与环境协变量的观测很昂贵或者很困难,而且单体型数据的观测常常面临缺失问题,表现型因变量数据的观测又常常会面临删失问题。如何在关联研究中,在数据不完全观察的情形下,发展一类节约成本的,高效的有偏抽样方法是现代统计学研究热点之一,也是相关学科发展的重要内容。本项目在单体型数据观测带有缺失的情况下,建立了关联研究中的ODS抽样设计机制,发展了参数的统计推断方法,并将这一统计推断方法推广到了更为一般的广义线性模型框架下的两阶段ODS抽样机制。在因变量观测带有删失的情况下,首次建立了删失数据的ODS抽样设计并发展了参数统计推断方法。进一步地,本项目研究了模型中参数带有约束的情形,提出了计算参数估计的可操作性强的数值计算方法。本项目中,对于一些重要的统计模型,利用各种似然方法,估计方程方法,经验似然方法,经验过程以及计数过程鞅理论等现代统计工具,对模型中的参数进行了统计推断,获得了一些重要研究成果。在以上工作的基础上,把所得方法应用于基因遗传学,生物医学和临床试验等实际数据中,特别是单体型关联研究中,解决一些实际问题。此项目既有重要的理论意义又有广泛的应用前景。