近年来,纵向数据分析是统计学的热点研究课题之一,其成果已被广泛地应用于生物、医学、社会科学等研究领域. 在分析纵向数据时,实际工作者广泛采用的一类重要统计模型为线性混合效应模型, 目前文献中对该模型的研究已取得了许多重要成果.在该模型下参数估计的最优性理论, 广义p-值检验的构造以及基于似然方法的大样本理论等方面获得了突破性进展和完善. 但关于该模型下的变量选择、预测以及数据有缺失、维数超过样本量情形的相关统计推断等问题的研究,还处于刚刚起步阶段. 如果忽视纵向数据的特点, 直接应用线性模型下相应的成果来分析纵向数据,则效率往往比较低, 甚至会得出错误的结论.本项目将在我们过去研究的基础上, 研究线性混合效应模型的变量选择、预测,以及缺失数据和高维数据情形下的该模型的统计推断问题. 这些成果不仅具有重要的理论意义, 而且也将为应用领域的数据分析提供有效的实用工具.
Longitudinal data;Mixed effects;Variables selection;Prediction;
纵向数据分析是当前统计学的热点研究课题之一。线性混合效应模型是用来分析纵向数据的一类重要统计模型。目前文献中对该模型的研究已取得了许多重要成果,如参数估计的最优性理论, 广义p-值检验的构造以及基于似然方法的大样本理论等方面获得了突破性进展和完善. 但关于该模型的模型诊断,变量选择、预测等问题以及数据存在缺失情形或高维情形的相关问题的研究还处于刚刚起步阶段。本课题研究了纵向数据下线性混合效应模型参数的统计推断、变量选择、以及预测问题。主要成果有比较了一般混合效应模型下方差分量模型两种常见的无偏估计(方差分析估计和谱分解估计),揭示了它们间存在的函数关系,并给出了两者等价的条件和彼此优于对方的条件,为两估计的使用提供了选择依据, 还给出了异方差情形下bootstrap检验;研究了带非正态误差的纵向数据混合效应模型的统计推断,提出了小样本精确检验存在的条件以及相应的检验;为生物指标诊断的灵敏性和特异性线性组合精度的检验提出了一种小样本确定样本量的方法,并考虑了其在带测量误差情形下的相关推断;借鉴变换模型和高维数据线性模型结果,给出了高维数据下混合效应模型的一种简单的变量选择方法;给出了一种简单有效的缺失数据下对称分布均值的检验方法,并将其推广到对数正态分布情形;小样本推断往往涉及到了约束边界最优解问题,本课题采用数值方法寻找最优解, 提出了有效收敛的数值算法;为了将统计研究新成果和基本方法更好地服务于应用,课题负责人出版了专著《线性混合效应模型引论》和《多元统计分析》(皆由科学出版社出版),参编了专著《现代医学统计》中关于纵向数据分析的部分。此外课题组还出版了教材《实用数据分析与MATLAB软件》。这些成果不仅在理论上丰富了纵向数据混合效应模型的统计推断方法,而且为应用领域提供了更为有效的、实用的数据分析工具。 该课题资助期间,课题组共完成科研论文21篇, 其中15篇已正式发表(12篇SCI检索, 3篇核心期刊), 出版专著2部,教材1部,参编专著1部(中、英两版)。