本项目将以经济、金融与管理领域为背景,对高维复杂数据统计分析中的一些基础性与前沿性的理论问题开展研究。通过对几种典型的复杂类型数据(例如符号数据、成分数据、函数数据等)的分析方法的工作目标、基本原理以及技术特点进行比较与提炼,建立一种高层次、简约的基础理论框架和代数体系,实现对诸多复杂类型数据分析方法的基本原理进行统一的理论描述,并发展适应大规模、高维复杂数据的新型多元分析方法。新理论体系将克服现有方法中存在的维数灾难、信息运用不充分、模型解释性不强等技术难题。在此基础上,还将推动应用研究取得突破性进展。例如基于符号数据的概念与方法,开发新的问卷调查方法,或者进行多产品库存交易记录数量关联挖掘研究;运用函数数据分析方法,改进违约概率度量模型和汇率波动规律分析模型;运用成分数据分析方法,分析劳动力就业结构的动态规律。这些研究的实现,将为经济管理领域中的数据收集与分析提供更加有效的技术。
high dimensional complex data;symbolic data with mixed distribution;compositional dada;functional data;original statistical methods
本项目以经济、金融与管理领域中一些重大的数据分析问题为背景,对高维复杂数据的若干新型统计分析方法进行研究。项目首先全面开展符号数据分析方法研究,提出基于全信息的区间数据多元分析理论方法,以及混合分布型符号数据的代数体系和多元分析理论,这在符号数据分析领域是一个十分重要的理论突破;第二,系统研究了成分数据向量的代数体系,提出了多元成分数据的数字特征,构建了多元成分数据的线性回归模型、Fisher判别方法、主成分分析方法和时间序列分析方法;第三,在多元函数数据分析方面,提出了新的多元函数数据分析方法,例如主成分分析、回归分析、聚类分析等。与此同时,还研究了函数型变量的M估计以及变量选择问题,对函数型数据和多元协变量混合的回归模型进行理论探索;第四,对复杂类型数据的关联分析、聚类分析以及模糊聚类的距离范式进行了研究,在高维度数据的余弦相似度计算方面,提出了“条件反单调性”和“支持度递增集合穷举树”等概念,给出了挖掘余弦兴趣模式的CosMiner算法。本项目已将所开发的理论方法运用于一系列经济管理的重要问题研究,对政府决策和地区管理产生重要影响。例如,在国家自然科学基金委托项目“创新研究群体科学基金实施效果分析与发展战略研究”中,利用区间数据分析方法,分析在不同学部创新研究群体的资助效果和产出特征,为基金委制定国家创新研究群体的未来发展战略规划提供了决策依据。在承担中央电视台电影频道M9105电影网的委托项目中,采用直方图数据主成分分析方法,构建了一种新型的网络用户评分模型。本项目还根据区间数据多元判别分析方法,建立了公司财务困境预测模型,研究考虑违约情况下累积分红寿险的退保权定价模型。运用函数型数据分析方法,研究了北京市120急救电话呼叫量与PM 2.5、SO2等数据的相关关系。王惠文教授提出的关于北京市雾霾防治的提案,获得2014年北京市政协优秀提案奖。此外,成分数据分析方法还被嵌套在投入产出表预测建模中,解决了在投入产出表编制和使用过程中,长期存在的时滞问题。本项目还积极开展国际交流与合作工作,组织一次高端国际学术研讨会议,有多人次赴国外合作研究以及参加相关的国际会议,并应邀参加P. Britro教授组织的《Analysis of Distributional Data》的专著章节写作。本项目研究已圆满完成立项报告中所提出的各项任务,取得重要研究成果,无重大调整。