位置:立项数据库 > 立项详情页
高维图模型的参数估计和模型选择
  • 项目名称:高维图模型的参数估计和模型选择
  • 项目类别:青年科学基金项目
  • 批准号:11101052
  • 申请代码:A011102
  • 项目来源:国家自然科学基金
  • 研究期限:2012-01-01-2014-12-31
  • 项目负责人:徐平峰
  • 依托单位:长春工业大学
  • 批准年度:2011
中文摘要:

近年来,随着新型的观测数据工具和手段的出现,人们观测到的变量或因素越来越多,出现了大量的高维数据。这些数据的维数已经达到成千上万,背景知识相当复杂,很难从整体上表示各个变量间错综复杂的关系。目前,分析这些高维数据的最有效工具之一是图模型。它可清晰地表示问题的背景知识及变量间的结构关系,是高维数据统计建模的非常自然的方式。然而,由于图模型中涉及的变量太多,传统的参数估计和模型选择方法,要么计算复杂度比较高,要么功效比较低,很难适应高维数据的情形。本项目中,我们将利用局部计算和共享计算思想求高维图模型的极大似然估计,降低传统的估计方法(IPS算法等)的复杂度;同时,对含有缺失数据的情形,利用变量间的条件独立关系,并结合EM算法,给出高效快速的参数估计方法;最后,我们基于无向独立图的分解和惩罚似然的方法,进行有向无圈图的模型选择。

结论摘要:

本项对高维图模型的参数估计和模型选择问题进行了系统的研究,并将图模型应用于因果推断领域,取得了一系列成果。 图模型的参数估计是指在图的结构已知时求与数据拟合最好的参数。在这方面,首先,我们给出了图分解算法,将高维图模型的极大似然估计问题,分解为低维的相互独立求解的局部模型上的极大似然估计问题,降低了问题的复杂度。其次,基于联接树和将团的集合分伙调整的策略,我们给出了一系列局部计算和共享计算极大似然估计的算法,并证明算法的相关性质,经模拟分析我们的新算法比IPS和IIPS算法快的多,为图模型应用于分析生物基因网络等高维数据提供了有力工具。最后,对于含缺失数据的图模型,我们改进了Lauritzen(1995)的经典算法,大大提高算法的计算速度。 图模型的模型选择主要是指通过统计方法分析数据找到与数据拟合最好的图结构。本项目主要研究基于条件独立性检验的方法和惩罚似然的方法,进行有向无圈图模型(Bayes网)的模型选择。我们主要从无向独立图出发,通过分解无向独立图,降低了基于条件独立性检验的复杂度,但精度有待提高,如何同时控制假设检验的第一类错误和第二类错误应需进一步研究。在惩罚似然方面,我们进行了初步的尝试,进行了大量模拟实验,这方面已有一些初步的结果,在将来的研究中,我们将证明估计的相合性。 另外,我们将图模型应用于因果推断领域,取得了可喜的成果。我们利用有向无圈图表示因果网络,提出了随机干预下扩充的因果网,给出了随机因果效应的解析表达式,方便研究者评估随机干预的因果效应。同时,我们在随机化试验中,我们用有向无圈图表示处置变量A、反应变量Y、不可观测的混杂U,以及反应变量是否可观测的指示器变量S之间复杂的因果关系。当由于个体死亡而导致反应变量Y缺失时,我们利用线性规划方法,给出了存活者的平均因果效应的上界和下界,比Jemiai (2005)的估计的上界和下届根据准确。 在本项目执行期间,我们发表2篇SCI论文,发表1篇国内核心期刊论文,录用2篇SCI论文,其中一篇被影响因子高达9.39的期刊录用。有1篇论文已经投往SCI杂志,还有部分结果正在整理中。培养硕士生6名。

相关项目
期刊论文 10 会议论文 3 著作 4
期刊论文 24 会议论文 3 著作 1
徐平峰的项目