高维数据检验问题中的稀疏方法及其应用-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

高维数据检验问题中的稀疏方法及其应用

项目名称：高维数据检验问题中的稀疏方法及其应用
项目类别：专项基金项目
批准号：11126260
申请代码：A011103
项目来源：国家自然科学基金
研究期限：2012-01-01-2012-12-31

项目负责人：沈炎峰
负责人职称：讲师
依托单位：浙江师范大学
批准年度：2011

中文摘要：

随着高通量技术的迅速发展，各种高维数据的收集变得越来越容易和自动化，这些新型数据的一个显著特征是变量个数与样本量相差不多或者会远大于样本量。很多经典的统计方法对高维数据已经不再适用，需要发展一套全新的统计方法和理论，以适应这种高维数据分析的需要。稀疏性假设和变量选择已经成为统计学习中的一个热门课题，然而把变量选择技术整合到高维假设检验的研究还相对比较少。本项目将针对高维检验中的热点问题和高维数据的稀疏性特点，着重讨论高维下多样本问题和多个总体均值和协方差阵同时检验问题，拟建立一个适用于稀疏高维数据分析的检验方法体系，从而克服传统方法在高维情形下的困难。在理论研究的基础上，开发基于R语言的程序算法，同时用随机模拟和实例分析来验证这些新方法的可行性和有效性。本项目的研究不仅拓广了高维数据分析的理论，而且进一步推进了统计学在生物医学中的应用，具有较高的理论价值和广阔的应用前景。

中文主题词：高维数据；假设检验；渐近正态性；稀疏性；变量选择

英文摘要：

High-dimensional data；Hypothesis testing；Asymptotic normality；Sparsity；Variable selection

英文主题词： High-dimensional data；Hypothesis testing；Asymptotic normality；Sparsity；Variable selection

结论摘要：

本研究项目针对高维检验中的热点问题和高维数据的稀疏性特点，在高维情形的多样本均值检验问题和多个总体均值与协方差阵同时检验问题等方面取得了一些研究成果。通过把变量选择技术整合到高维检验之中，建立了一个适用于稀疏高维数据分析的检验方法体系，并且获得了检验统计量的极限分布，取得了若干有特色的创新成果。在理论研究的分析上，编写基于R语言的程序算法，同时用数值模拟和真实数据分析来验证这些新方法比传统方法能更有效地检测稀疏性数据。本研究工作在一定程度上拓展了高维数据分析的统计方法，同时也进一步推进了统计学在生物医学中的应用。

相关项目