在现代社会,信息量以及应用信息的程度都以几何级数的方式在增长,这些海量信息大多可以表示成高维数据的形式,因此高维数据分析是当今数理统计发展最重要的方向之一。本项目将从三个方面较系统的研究高维数据问题。一是高维情形下回归设计的若干问题,将应用Hadamard矩阵和其他一些矩阵的正交结构寻找最优设计,从而在收集高维数据时既可以包含足够的信息又可以极大地减少人力、物力、成本花费等。二是在收集的高维数据具有稀疏性情况下,应用当前流行的SCAD和MCP等大规模数据模型选择方法,在模型选择的同时对多变点进行更加快速有效的检测。三是当高维数据不具有稀疏性情形下,研究具有相依结构的大维随机矩阵极限谱分布,进而研究由谱分布构成的多元统计量的极限性质,为统计推断奠定基础。本项目还将采用上述方法对金融、环境、地质等领域的高维数据进行应用研究,使得上述理论研究也具有较大的实际应用价值。
High dimensional data analysis;Optimal experimental design;Model selection;Change point;Large dimensional random matrix
在项目执行期间,我们基于立项目的、预期目标和自然科学基金提倡的原则开展研究工作。在科学研究方面以高维数据分析为主线,研究了最优试验设计、模型选择与变点检测、大维随机矩阵谱分析理论。最优试验设计方面,推广了对数线性混合模型精确D-最优设计问题和基于最大熵的站点网络设计问题。模型选择和变点检测方面,提出了一个新颖的快速的针对非平稳时间序列模型的多变点同时检测和模型选择的方法。算法方面,我们选取一个自适应序列改进了多元线性回归模型的递归M估计,以及具有线性约束的截断多元正态的EM算法。大维随机矩阵理论方面,我们研究了对称自交叉样本协方差矩阵极限谱分布的显示表达式和其最大特征根与最小特征根的极限。论著方面受项目资助课题组共发表8篇SCI论文,2篇已被接受的SCI论文和1篇中文核心期刊,其中项目申请人为第一作者或通讯作者有7篇。人才培养方面:本项目培养了2名博士生,13名硕士生,其中2名获得博士学位,6名获得硕士学位。