全基因组关联分析是在不作任何生物功能的前提假设下,对全基因组水平上的海量遗传变异进行无偏倚的全面筛查,寻找出与复杂疾病的特定性状相关的基因,并阐明它们之间的交互作用。这是目前研究复杂疾病的遗传机制的关键方法。然而它也面临著挑战,其中包括如何确定基因间的相互作用;如何处理群体/疾病的异质性等。本项目试图建立适当的模型,研究新的变量选择方法以及对应的算法,进而研究变量选择方法的oracle性质与对应算法的收敛性以及收敛速度,提供在理论上的可行的依据,特别地研究变量的选择是否按照其重要性依次选出的性质,从而有望解决全基因组关联分析面临的上述挑战,为寻找与疾病相关多靶点、识别对疾病有鉴别力的分子特征组合提供了一种新的途径。这使我们能够从分子水平探索疾病的发病机理,为疾病预测和发现有效的诊断、治疗途径提供了一个全局化新视角。此项目有重要的理论意义与应用价值。
LEP;Twin family;Ohno hypothesis;Gene expression;oracle property
我们围绕项目计划书开展了一系列在遗传学研究上的统计方法学的创新性研究, 通过三年的努力和项目组成员之间的协同研究,得到以下几个方面的成果 (1) 对惩罚函数LEP的性质进行了系统的研究,从而得到估计的Oracle性质和最优估计的解通路的计算方法,而且其在变量个数小于样本数时,目标函数是凸性的,这样无需考虑初始点的选取问题,而所得估计是全局最优的。 (2) 对双生子家系遗传模型进行了深入研究。建立了父母-双生子四人组ACDE模型,严格探讨了该模型的可识别性。相比古典的双生子模型,该模型可给出了更为精确的遗传率估计,从理论上及实际数据分析两个方面揭示了古典双生子模型中的遗传率估计偏高及其背后的原因。同时,利用非欧几何得到似然比的检验的渐近分布,结果发表在生物统计最好的两个期刊之一Biometrics。 (3) 通过系统比较microarray 数据与RNA-seq 数据的特性,指出了基于microarray 的基因表达的不足和基于RNA-seq 的基因表达的优势,并由此否定了经典的哺乳动物中X 染色体表达加倍的Ohno 假说,相关论文发表在2010 年12 月的Nature Genetics 上,并被Nature Reviews Genetics 选为Research Highlights,被Science 选为Editors’Choice。 (4) 我们证明了LEP在线性模型中的oracle 性质和全局最优性,并提出了新的算法,理论文章已经成文并投稿中。同时,我们把LEP方法用于基因表达网络的重构上,取得很好的效果。