变量选择一直是统计学中的热门问题,对于数据分析有基本的重要性。本项目主要考虑复杂模型的变量选择和建模问题,其中一类重要的复杂模型是均值和分散度量(方差或散度)都与某些解释变量有关的多重回归模型。申请者的前期研究表明,目前以均值模型为主的变量选择方法的直观套用在很多场合会导致误解,而方差分析的思想与现代统计的理论相结合有助于理解这种模型中的各种数量关系,从而有利于协调均值和方差回归之间的关系。本项目拟在此基础上进一步探索,争取给出一些可行的办法。 本项目进行的另一个源动力来自于一个实际问题孕妇妊娠高血压是一个复杂的病症,至今对于其发病的原因尚无定论。对于回顾性数据的初步分析表明,这些数据具有比较明显的异方差性,然而数据中包含大量的人口统计学变量、临床观察变量、家族病史变量等,需要从统计分析和医学角度对于预后变量进行甄别和选择,从而获得有助于临床诊断的统计学依据。
variable selection;joint regression model;heteroscedasticity;retrospective study;
变量选择一直是统计学中的重要问题,对于数据分析有基本的重要性。本项目主要考虑复杂模型的变量选择和复杂样本的统计推断。所考虑的一类重要的复杂模型是均值和分散度量(方差或散度)都与某些解释变量有关的多重回归模型。项目组从经典信息类准则和近年来的高维变量选择准则两个方面研究了异方差线性模型和双重广义线性模型的变量选择,提出了新的方法。研究表明,这些方法在很多情况下有较好的效果。 项目组还研究了带有单调约束的半参数模型的统计推断,就回归解释变量有不同类型误差,响应变量完全样本、响应变量有缺失的样本、响应变量右删失的样本,给出了模型参数的估计方法及其大样本理论性质。 本项目进行的另一个源动力来自于一个实际问题孕妇妊娠高血压是一个复杂的病症,至今对于其发病的原因尚无定论。对于回顾性数据的初步分析表明,这些数据具有比较明显的异方差性,然而数据中包含许多的人口统计学变量、临床观察变量、家族病史变量等,需要从统计分析和医学角度对于预后变量进行甄别和选择,从而获得有助于临床诊断的统计学依据。我们根据理论研究的结果,提出了数据分析方法,取得了较好的预测效果。 项目组共发表论文18篇,其中15篇论文已经见刊, 3篇论文被接受发表待刊。