在高维数据分析中,稳健的降维和变量选择方法是一个研究热点。许多降维方法从不同的角度考虑了稳健性,比如,对异常值的稳健,对参数选择的稳健以及对回归变量分布的稳健等。充分降维方法中,许多方法采用了平方损失,是不稳健的;而已有的稀疏充分降维方法,主要利用了L1惩罚的思想,对于惩罚参数的选择也是不稳健的。稳健充分降维方法需要进一步深入研究,而稳健的稀疏降维方法的相关研究还很少。本项研究包括三个内容(1)基于指数损失和hinge损失的稳健降维方法研究;(2)基于(复合)分位点回归的稳健降维方法研究;(3)基于随机化思想的稳健稀疏降维方法研究。这些在已有方法中还没有相关研究。本项研究将发展新的稳健降维方法和稳健稀疏降维方法,具有重要的理论意义;本项研究对于进一步提高降维方法在金融、生物、医学等实际应用中的表现有很大帮助,具有较高的应用价值。
dimension reduction;variable selection;influential point detection;machine learning;matrix data
随着信息技术的发展,数据采集能力有了很大的提高。对高维数据建模成为越来越普遍的问题。高维数据的一个特点是信号弱,噪音大。已有的高维数据分析方法中,对稳健性的考虑还不充分。本项目重点是考虑高维数据建模中的稳健降维方法,针对不同的应用背景发展相应的统计方法,研究其理论性质并进行模拟和实际数据分析。 本项研究按照计划展开,取得了较好的成果。共发表论文近十篇,完成论文3篇,其中在The Annals of Statistics 发表论文1篇,Statistic Sinica 发表论文1篇。主要成果有如下几个方面。(1)稳健的充分降维方法研究。已有充分降维方法中大多假设回归变量具有正态分布或椭圆分布。但是实际问题中,上述假设不一定能满足。 本项目对已有充分降维方法的切片当中的点的不同作用进行了分析, 提出了加权稳健降维方法。 (2)两阶段降维方法研究。 在降维方法的研究中,一类方法是将降维与回归或分类同时进行,比如LASSO等方法;另一类方法是所谓两阶段降维方法,即首先对数据进行降维,然后利用已有的回归或分类方法对降维之后的数据进行处理。两阶段降维方法思路简单,被广泛应用。在两阶段建模方法中,大多数文献侧重于第一阶段降维方法的研究,而对降维方法对后续回归或分类影响考虑不足。在机器学习领域中,boosting方法是常用的分类方法。 作者研究了降维方法对boosting方法的影响。给出了两阶段降维boosting分类方法相合性的充分条件。 (3)对高维影响点诊断。本项目研究了高维数据回归建模中的影响点的诊断问题。总所周知,影响点对回归有很重要的影响;可能导致错误的模型或者回归系数估计不相合等等。在回归变量维数比较低的情况下,Cook 距离是一个比较常用的用来诊断异常点的统计量,但是Cook 距离等方法无法直接应用与高维数据情形。本项研究给出了新的高维影响点诊断方法,相关结果发表在顶级期刊The Annals of Statistics。(4)矩阵数据的变量选择。实际问题中经常遇到回归变量X是矩阵的数据类型,如脑电波等。在这类数据中,同行同列的变量往往有共同的属性,人们关心哪些行和列的属性对响应变量Y有影响。简单利用LASSO等方法会破坏了数据的行和列的内在结构,不能实现对行属性和列属性的选择。作者提出了structure lasso方法,可以对行和列进行选择。