一般的统计建模只是针对均值作拟合,对方差-协方差结构做某种设定(比如设定为独立结构或一阶自回归结构等),或者根据模型拟合优劣的评价标准(例如AIC和BIC准则)从若干备选的结构中选择一种"最好"的方差-协方差结构;然而,这种人为的选择方式不能保证选择到最优结构,从而会影响统计模型的诊断,比如引起影响点的误判。目前国内外对线性混合模型和广义线性混合模型的建模研究主要是在设定方差-协方差结构的基础上进行,研究拟合方差-协方差结构的文章很少见,而研究同时拟合均值和方差-协方差结构的文章更少,还没有人将同时拟合与诊断分析结合起来研究。本项目研究线性混合模型和广义线性混合模型的统计建模和统计诊断问题,先对均值向量和方差-协方差结构同时拟合建模,再在此基础上讨论模型的诊断分析问题;这种同时拟合均值和方差-协方差结构的建模方法可以提高模型拟合程度,也使统计诊断的准确性得到很大提高。
linear mixed model;generalized linear mixed model;covariance structure;statistical diagnostics;
在线性混合模型和广义线性混合模型的框架下研究两个主要问题(1)均值和方差-协方差结构的同时拟合;(2)模型的统计诊断。首先,基于EM算法的Q 函数,提出了基于Q 函数的二阶导数的数学期望的诊断统计量,发展了Zhu等(2001)提出的Q 函数方法,在假定组间方差-协方差矩阵和组内方差-协方差矩阵未知的情况下,讨论了线性混合模型和广义线性混合模型的点删除统计诊断方法,获得了度量线性混合模型全参数(即均值参数、组间方差-协方差矩阵参数和组内方差-协方差矩阵参数)的广义Cook统计量,这个统计量不仅有很好的解析表达式,而且有非常好的统计意义它可以正交地分解为三个Cook统计量分别对应均值参数、组间方差-协方差矩阵参数和组内方差-协方差矩阵参数。这个结果解决了Banerjee和Frees(1997)以及Christensen 等(1992)没有很好解决的问题即在组间方差矩阵和组内方差矩阵都未知的前提下全参数的统计诊断问题。其次,在线性混合模型框架下,在Pan和MacKenzie(2003,2006,2007)的研究的基础上的进行更进一步的研究,采用三个模型分别对纵向数据的均值向量和方差-协方差矩阵(即组内方差-协方差矩阵和组间方差-协方差矩阵)同时拟合;这种同时拟合的建模方法可以避免人为设定模型方差-协方差结构的不合理性。最后,在对纵向数据的均值向量和方差-协方差矩阵同时拟合的基础上,研究了线性混合模型的统计诊断问题,获得了度量线性混合模型全参数(均值参数、组间方差-协方差矩阵参数和组内方差-协方差矩阵参数)的广义Cook统计量,同样地,这个统计量有很好的解析表达式和统计意义它可以正交地分解为三个Cook统计量分别对应均值参数、组间方差-协方差矩阵参数和组内方差-协方差矩阵参数。