随着高通量技术的迅速发展,各种高维数据的收集变得越来越容易和自动化,这些新型数据的一个显著特征是变量个数与样本量相差不多或者会远大于样本量。很多经典的统计方法对高维数据已经不再适用,需要发展一套全新的统计方法和理论,以适应这种高维数据分析的需要。稀疏性假设和变量选择已经成为统计学习中的一个热门课题,然而把变量选择技术整合到高维假设检验的研究还相对比较少。本项目将针对高维检验中的热点问题和高维数据的稀疏性特点,着重讨论高维下多样本问题和多个总体均值和协方差阵同时检验问题,拟建立一个适用于稀疏高维数据分析的检验方法体系,从而克服传统方法在高维情形下的困难。在理论研究的基础上,开发基于R语言的程序算法,同时用随机模拟和实例分析来验证这些新方法的可行性和有效性。本项目的研究不仅拓广了高维数据分析的理论,而且进一步推进了统计学在生物医学中的应用,具有较高的理论价值和广阔的应用前景。
High-dimensional data;Hypothesis testing;Asymptotic normality;Sparsity;Variable selection
本研究项目针对高维检验中的热点问题和高维数据的稀疏性特点,在高维情形的多样本均值检验问题和多个总体均值与协方差阵同时检验问题等方面取得了一些研究成果。通过把变量选择技术整合到高维检验之中,建立了一个适用于稀疏高维数据分析的检验方法体系,并且获得了检验统计量的极限分布,取得了若干有特色的创新成果。在理论研究的分析上,编写基于R语言的程序算法,同时用数值模拟和真实数据分析来验证这些新方法比传统方法能更有效地检测稀疏性数据。本研究工作在一定程度上拓展了高维数据分析的统计方法,同时也进一步推进了统计学在生物医学中的应用。