本项目以现实生活中广泛存在的具有零点膨胀的计数数据为主要研究对象,并借鉴近年来Bayesian分析方面的新思路新方法,拟对缺失数据假设下的零点膨胀计数数据展开深入研究。具体地,本项目将在缺失数据假设下建立起上述数据的零点膨胀层次回归模型,以准确刻画集群数据所呈现出的"异质性"及"内部相关性"等特征;在此基础上,本项目拟结合不同的缺失数据机制,进一步研究该模型在参数估计、统计诊断、局部影响分析以及模型选择方面的Bayesian理论和方法,拟建立起有效的Bayesian估计算法以及合理的Bayesian统计诊断度量和模型选择标准。本项目的研究具有一定的学术价值和应用前景,其相关研究成果不仅为缺失数据研究以及Bayesian 分析提供理论和方法上的支持,还可能为广大实际工作者提供技术上的参考。本项目的预期研究成果为论文,预计在国内外重要学术刊物上发表论文2-3篇。
count data;zero-inflation;Bayesian analysis;local influence measure;model seleciton
本项目以现实生活中广泛存在的零点膨胀计数数据为研究对象,并借鉴了近年来计数数据分析方面的新思路和新方法,得到如下三个方面的研究成果(1)缺失数据下零点膨胀计数数据的模型选择研究。本研究主要考虑了广义幂级数分布下含有缺失的零点膨胀计数数据的模型选择问题,建立起获得参数极大似然估计的MCEM算法,讨论了算法的收敛性,在此基础上,基于不同的缺失数据机制,提出了两类不同的模型选择准则。上述两类准则不仅适用于缺失数据下模型之间的选择和比较,当数据为完全观测时,这两类准则均退化为标准的AIC 准则。(2)零点膨胀广义泊松混合回归模型的局部影响分析。本研究首先建立起零点膨胀广义泊松混合回归模型框架,该框架涵盖了计数数据分析的三大关键问题是否存在零点膨胀,是否存在有限混合以及是否存在散度偏大。在此基础上,本研究对上述三类问题分别考虑了全局扰动机制和逐项扰动机制,并采用了一阶影响度量来评估模型假设对于微小扰动的敏感程度。此外,本研究还考虑了关于上述三类问题的假设检验,提出了相应的检验统计量。由于该检验统计量的渐近分布难以直接得到,本研究采用了重抽样和Bootstrap技术来获取检验统计量的抽样分布并计算其p-值。(3)零点膨胀层次泊松回归模型的贝叶斯分析。本研究首先建立起零点膨胀层次泊松回归模型,这种多水平的建模方式能够有效捕捉来自不同水平的变化,刻画不同单位之间的相关结构。在此基础上,本研究利用了数据添加的思想,将服从零点膨胀下的泊松数据分解成由二项分布潜变量和泊松分布潜变量完全表示的形式,并基于完全数据集,建立起了贝叶斯后验推断程序。具体而言,本研究有针对性的采用了Gibbs抽样和接受-拒绝抽样算法获得后验观测样本,模型选择则通过BIC准则得以实现,此外,本研究还进一步考虑了贝叶斯卡方拟合优度统计量以衡量数据与模型之间拟合程度的好坏。 本项目的研究是当代统计学中热点问题的自然结合和推广,适应了实际问题中对复杂数据分析的需要,是一项有价值的探索。其相关研究成果不仅为计数数据分析提供理论和方法上的支持,还可能为广大实际工作者提供技术上的参考。本项目如期完成预期目标,发表SCI论文两篇。