高维数据降维和变量选择的若干稳健方法研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

高维数据降维和变量选择的若干稳健方法研究

项目名称：高维数据降维和变量选择的若干稳健方法研究
项目类别：青年科学基金项目
批准号：11101022
申请代码：A011103
项目来源：国家自然科学基金
研究期限：2012-01-01-2014-12-31

项目负责人：赵俊龙
依托单位：北京航空航天大学
批准年度：2011

中文摘要：

在高维数据分析中，稳健的降维和变量选择方法是一个研究热点。许多降维方法从不同的角度考虑了稳健性，比如，对异常值的稳健，对参数选择的稳健以及对回归变量分布的稳健等。充分降维方法中，许多方法采用了平方损失，是不稳健的；而已有的稀疏充分降维方法，主要利用了L1惩罚的思想，对于惩罚参数的选择也是不稳健的。稳健充分降维方法需要进一步深入研究，而稳健的稀疏降维方法的相关研究还很少。本项研究包括三个内容(1)基于指数损失和hinge损失的稳健降维方法研究；(2)基于(复合)分位点回归的稳健降维方法研究；(3)基于随机化思想的稳健稀疏降维方法研究。这些在已有方法中还没有相关研究。本项研究将发展新的稳健降维方法和稳健稀疏降维方法，具有重要的理论意义；本项研究对于进一步提高降维方法在金融、生物、医学等实际应用中的表现有很大帮助，具有较高的应用价值。

中文主题词：高维数据降维；变量选择；影响点诊断；机器学习；矩阵数据

英文摘要：

dimension reduction；variable selection；influential point detection；machine learning；matrix data

英文主题词： dimension reduction；variable selection；influential point detection；machine learning；matrix data

结论摘要：

随着信息技术的发展，数据采集能力有了很大的提高。对高维数据建模成为越来越普遍的问题。高维数据的一个特点是信号弱，噪音大。已有的高维数据分析方法中，对稳健性的考虑还不充分。本项目重点是考虑高维数据建模中的稳健降维方法，针对不同的应用背景发展相应的统计方法，研究其理论性质并进行模拟和实际数据分析。本项研究按照计划展开，取得了较好的成果。共发表论文近十篇，完成论文3篇，其中在The Annals of Statistics 发表论文1篇，Statistic Sinica 发表论文1篇。主要成果有如下几个方面。（1）稳健的充分降维方法研究。已有充分降维方法中大多假设回归变量具有正态分布或椭圆分布。但是实际问题中，上述假设不一定能满足。本项目对已有充分降维方法的切片当中的点的不同作用进行了分析, 提出了加权稳健降维方法。（2）两阶段降维方法研究。在降维方法的研究中，一类方法是将降维与回归或分类同时进行，比如LASSO等方法;另一类方法是所谓两阶段降维方法，即首先对数据进行降维，然后利用已有的回归或分类方法对降维之后的数据进行处理。两阶段降维方法思路简单，被广泛应用。在两阶段建模方法中，大多数文献侧重于第一阶段降维方法的研究，而对降维方法对后续回归或分类影响考虑不足。在机器学习领域中，boosting方法是常用的分类方法。作者研究了降维方法对boosting方法的影响。给出了两阶段降维boosting分类方法相合性的充分条件。（3）对高维影响点诊断。本项目研究了高维数据回归建模中的影响点的诊断问题。总所周知，影响点对回归有很重要的影响；可能导致错误的模型或者回归系数估计不相合等等。在回归变量维数比较低的情况下，Cook 距离是一个比较常用的用来诊断异常点的统计量，但是Cook 距离等方法无法直接应用与高维数据情形。本项研究给出了新的高维影响点诊断方法，相关结果发表在顶级期刊The Annals of Statistics。（4）矩阵数据的变量选择。实际问题中经常遇到回归变量X是矩阵的数据类型，如脑电波等。在这类数据中，同行同列的变量往往有共同的属性，人们关心哪些行和列的属性对响应变量Y有影响。简单利用LASSO等方法会破坏了数据的行和列的内在结构，不能实现对行属性和列属性的选择。作者提出了structure lasso方法，可以对行和列进行选择。

成果综合统计