因果关系在人类的思想中是一个很基本的概念,探索众多复杂事物间的因果关系是自然科学、社会科学、医学和经济学等几乎所有科学研究的最重要内容之一。然而,如何用量化的语言来定义因果关系长期以来一直存在争议。目前,一个流行的因果关系模型是因果网,它是用一个有向无圈图(DAG)直观地描述了变量间的因果关系,利用因果网便于对外部干预所产生的效应进行预测。对于许多实际问题,因果网中含有不可观测的变量(也称为隐变量或潜变量),此时干预效应的预测是研究者们非常关心的一个问题。但是,已有的研究大多是基于计算的角度进行的。本项目中,我们将应用统计学的思想来研究干预效应识别的变量选择问题;此外,对反应变量不可观测的情形,利用因果网的结构信息给出干预效应的预测方法。以上研究均假设因果网是事先已知的。但是,许多情况下我们不知道因果网。本项目中,我们由数据出发,基于隐树模型的学习方法来研究含隐变量因果网的统计学习方法。
causal network;latent variable;interventional effect;confounder;
本项目研究了含隐变量因果网的学习和基于因果网的因果推断问题。在含隐变量的因果网结构已知时,若因果网所对应的结构方程满足线性和正态性条件,则干预效应可以通过回归系数反映,我们给出多元回归中的一种变量选择方法。在反应变量不能被完全观测时,我们给出估计干预效应的一种方法,该结果便于实际工作者的使用。在因果网未知时,我们研究了混杂子的判定条件。课题组目前撰写论文3 篇,其中1 篇SCI 已发表,另外2 篇即将投稿,参加全国学术交流会议1 次。课题组取得的成果为含隐变量的因果推断研究提供了坚实的理论指导,对统计因果推断的发展起到了一定的促进作用。