结构性数据中属性重要性评价及其统计推断-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

结构性数据中属性重要性评价及其统计推断

项目名称：结构性数据中属性重要性评价及其统计推断
项目类别：青年科学基金项目
批准号：11001019
申请代码：A0114
项目来源：国家自然科学基金
研究期限：2011-01-01-2013-12-31

项目负责人：胡丹
负责人职称：副教授
依托单位：北京师范大学
批准年度：2010

中文摘要：

结构性数据（属性间存在时间和因果关系的数据）在自然、社会科学领域中几乎无处不在，结构性数据的属性重要性评价是模型构建、分析和决策的关键。然而，现有属性重要性评价方法在研究中均采用属性并行式模式，效应分析过程中"结构性"的遗漏直接导致了"间接效应"的缺失，从而使研究结果产生较大偏倚，被领域专家所质疑，亟需提出适合于结构性数据的属性重要性评价方法。本项目针对此需求展开研究1）结构性数据有向结构图的构建；2）基于有向图的结构神经网络模型和Rough-效用结构模型的构建与分析；3）结构神经网络模型和Rough-效应结构模型中的属性重要性评价；4）结构模型中各子效应及属性重要性度量的统计推断。项目研究成果可为结构性数据中系统机理的揭示和客观真实的效应评价提供理论和方法支撑；相关度量的统计推断研究对弥补智能数据分析方法数理基础薄弱的问题具有借鉴意义；而结构性数据的普遍存在使研究成果有广泛应用前景。

中文主题词：残差型结构神经网络；依赖度（重要性）的固定值检验；依赖度（重要性）的区间估计；分层混合模糊神经网络；模糊推理神经网络

英文摘要：

Residual structural NN；fixed value test of DD(ID)；interval estimation of DD(ID)；hierarchical hybrid FNN；fuzzy inference neural network

英文主题词： Residual structural NN；fixed value test of DD(ID)；interval estimation of DD(ID)；hierarchical hybrid FNN；fuzzy inference neural network

结论摘要：

结构性数据在各个领域中普遍存在，充分利用属性间的结构性进行属性的关联性分析和重要性评价至关重要。本项目打破传统属性重要性评价中采用的属性并行式模式，通过结构性神经网络模型、分层混合神经网络及模糊推理神经网络的构建，深入开展属性关联分析和重要性评价研究。同时从多角度展开属性依赖度和重要性度量的统计推断研究，首次解决了传统数据挖掘领域中度量无法进行区间估计的问题，丰富了智能数据分析的理论基础，并为智能数据分析和经典的统计数据分析搭建了桥梁。本项目研究基本按照研究计划进行，主要成果为1）首次提出了残差型结构神经网络模型。通过残差神经元的引入，分解和展现了输入属性对输出属性的直接效应和间接效应。在残差型结构神经网络中，提出了基于权积法和偏导法的属性重要性评价方法。2）首次实现了粗糙集理论中属性依赖度和重要性度量的区间估计和显著性检验。提高了依赖度和重要度的鲁棒性，对相关度量统计推断研究具有重要的参考意义。本项目分别从多项分布的极大似然估计和Kolmogorov-Smirnov匹配度检验两个角度研究了依赖度和重要性的统计推断问题。提出了依赖度固定值检验基础算法（BFToDD）和基于极大似然估计与卡方匹配度检验的依赖度固定值检验算法（FToDD1），进一步得到了依赖度区间估计显式表达式和区间估计极限定理。首次提出具有不同非零元列联表的匹配度检验算法，提出基于K-S检验的列联表匹配度检验基础算法（EGoFTCT）。进一步地，在充分考虑列联表行列变换对算法结果影响的基础上，提出了列联表匹配度检验优化算法（AGoFTCT）。通过将依赖度变换为符合条件的列联表，提出了基于K-S检验的依赖度固定值检验算法（HToDD-ks）和依赖度域估计算法（REoDD-ks）。最后，结合属性重要性的本质意义,提出了属性重要性的显著性检验及域估计算法（SIoID）。3）针对基于包含度定义的属性依赖度和重要性度量，深入分析依赖度确定值与列联表元素约束间的关系，提出了基于包含度的依赖度显著性检验算法（STDDid）。4）深入研究了分层混合模糊神经网络，提出了基于Lasso函数的分层混合模糊神经网络，并基于偏导法研究了该模型下属性的重要性评价。5）构建了简化的模糊推理神经网络（spFINN），首次提出了输入变量敏感性分析的spFINNSI方法，该方法对模糊神经网络中的属性重要性评价具有重要的借鉴意义。

成果综合统计