位置:立项数据库 > 立项详情页
稳健变量选择与高维数据分析
  • 项目名称:稳健变量选择与高维数据分析
  • 项目类别:面上项目
  • 批准号:11071022
  • 申请代码:A011103
  • 项目来源:国家自然科学基金
  • 研究期限:2011-01-01-2013-12-31
  • 项目负责人:崔恒建
  • 负责人职称:教授
  • 依托单位:北京师范大学
  • 批准年度:2010
中文摘要:

众所周知,当误差分布或因变量的分布偏离了理论假定分布时,基于惩罚最小二乘或正态似然的变量选择方法及其参数估计方法将很不稳定,甚至遭到破坏。本项目致力于稳健变量选择研究及其高维数据分析问题的研究,对若干常用统计模型特别是(部分)线性(EV)模型,研究当误差分布或因变量的分布偏离了理论假定分布时,采用惩罚最小二乘,LASSO,SCAD等变量选择方法,对变量选择和参数估计的影响和效率问题,并对这些方法进行比较;提出新的比较稳健的变量选择和参数估计方法,获得参数估计的有关稳健性质和大样本性质。同时我们还将稳健变量选择方法应用于基因识别和遥感数据探索性分析等实际领域。总之,我们的研究涉及模型和变量选择稳健性的诸多主要方面,其研究将为高维数据分析和稳健变量选择提供丰富的理论基础和科学依据,对变量选择和稳健统计的发展具有重要意义。

结论摘要:

稳健变量选择与高维数据的分析在大数据时代已受到人们的广泛关注,本项目对稳健变量选择和高维数据分析方法及其统计推断进行了深入研究,获得的主要研究成果包括1. 对常用变量选择的方法进行了全面总结,并在百科全书上发表。对几类常见统计模型提出了Adaptive Huberized Lasso 方法,证明了Oracle 性质,获得了其影响函数。获得了一般变量选择的Oracle性质和非零参数的渐近正态及其稳健等性质。提出了对非线性带测量误差模型中的去噪参数估计,获得了LSE估计和稳健M-估计的性质。2. 获得了高维情形传统F-检验的功效,提出了U-检验方法,获得了理论功效函数,并对高维稀疏部分惩罚似然检验比检验和高维协方差的结构高维稀疏参数空间上的假设检验等问题进行了深入研究,获得了诸多优良理论性质。3.给出了相应Wilk’s定理成立的一般条件,解决了本领域中用半参数经验似然方程方法构造参数经验似然置信区域的Wilk’s 定理成立的条件问题,对带有缺失数据的线性EV模型中参数的经验似然比置信区域进行了研究,获得诸多优良结果。4. 针对几类常见统计模型,分别提出了稳健SIEVE-估计、T-型估计、M-估计、 Huber-Dutter估计,获得了估计的相合性,渐近正态性,收敛速度等优良性质,进行了模拟和稳健性比较。5. 提出了新的稳健判别方法,应用到蛋白质和水稻基因数据的统计分析中去;对脑卒中实际数据进行了变量选择和数据分析,获得了重要而有实际意义的影响脑卒中病人的环境因子;分析了北京市产业结构对经济增长的贡献,获得有意义的结果并提出相应对策。这些问题的研究和解决为探索性数据分析和稳健变量选择,参数估计与检验的发展提供了新思想、新方法。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 25
  • 0
  • 0
  • 2
  • 1
期刊论文
相关项目
期刊论文 16 会议论文 1 获奖 2 著作 1
崔恒建的项目