图模型是高维数据分析的重要工具,利用图模型的结构信息往往能大幅度降低统计推断问题的复杂性。图回归模型是图模型的重要推广,应用图回归模型可以充分利用解释变量与响应变量之间的结构信息,进而更好地描述两者之间的关系。在图模型的研究中,如何利用结构信息是一个核心问题,而分解性和可压缩性则是利用结构信息的重要策略。对图回归模型来说,这两种策略也可以得到合理的应用。目前,对于图回归模型,已经出现一些关于可压缩性的研究,然而至今为止尚未出现关于分解性的研究。因此,在本项目中我们将重点研究图回归模型的分解性,同时进一步研究该模型的可压缩性,并利用这两种策略来改进图回归模型的估计和变量选择方法。最后,通过大量的模拟研究和实例应用来表明,分解性和可压缩性的应用将大幅度提高图回归模型的极大似然估计以及变量选择的效率和准确性。
Graphical regression models;Collapsibility;Decomposition;Structural dimension reduction;
本项目旨在利用分解性和可压缩性两种结构降维策略来降低图回归模型的统计推断问题的复杂性。经过三年的努力,我们对图回归模型的分解性和可压缩性进行了深入的研究,并取得了预期的成果。 首先,关于图回归模型的可压缩性的论文“Collapsibility of conditional graphical models”已于2013年发表在国际统计学期刊“Scandinavian Journal of Statistics” (SCI,2014年影响因子1.063)上。 其次,由于我们在关于图回归模型的可压缩性的论文中取得了突破性进展,使得我们更有优势进一步研究图回归模型的分解性。我们撰写了一篇名为“Decomposition of covariate-dependent graphical models with categorical data”的草稿,在这篇草稿中我们研究了图回归模型(又称为协变量-依赖图模型)的各种强分解性和弱分解性,分别提出了判断这些分解性的充分必要条件。我们原计划于2014年把该论文继续投稿至“Scandinavian Journal of Statistics”上,后来经过慎重考虑决定在2015年把该论文投稿至国际统计学顶级期刊“Annals of Statistics”。 以上两项研究是本项目的最重要成果,除此之外还产生了两项相关成果论文“Semi-supervised spectral clustering with application to detect population stratification”于2013年发表在遗传学前沿杂志“Frontiers in Genetics”上;草稿“The collapsibility and decomposition of likelihood ratio tests for graphical models”将于2015年投稿至国际统计学期刊“Journal of Multivariate Analysis”。