高维数据经常出现在各个领域中,分析高维数据已经成为目前国际统计界的前沿课题之一。多元分析中许多常用统计量用到高维数据中经常会出现高估真实参数或高概率拒绝原假设的问题,严重的时候甚至会出现估计的偏非常大或假设检验的第1类错误趋于1的情况。出现这种情况的最根本原因就是常说的维数祸根问题。本研究计划的目的是在数据维数与样本量成比例增长的前提下(数据维数可能大于样本量),研究多元分析中常用统计量的高维性质,解决这些统计量高估真实参数或高概率拒绝原假设的问题,以求最终避免维数祸根。
Sample covariance matrix;F random matrix;high dimensional test;central limit theorem;linear spectral statistics
多元统计分析中一些常用统计量在高维中表现较差或者完全失效。例如,检验协方差矩阵等于单位阵的似然比检验在高维中随着样本量和维数的成比例增加其第1类错误趋于1,这在统计推断中是不能被认可的。鉴于此,本项目研究了多元统计分析中一些常用统计量的高维性质。本项目建立了高维样本多重相关系数的极限和中心定理;建立了高维无偏样本协方差矩阵线性谱统计量的中心极限定理,且给出的条件是不可去的;建立了一般高维F随机矩阵线性谱统计量的中心极限定理;对多元统计分析中几个高维检验问题进行了研究;提出了变量之间的不对称相关度量。该项目目前已发表学术论文9篇,其中一篇发表在Annals of Statistics, 一篇发表在Biometrika,一篇发表在Journal of the American Statistical Association.