工具变量估计

Instrumental Variable Estimation

Posted by xhhszc on January 23, 2021

工具变量估计


本篇主要是按我自己的思路整理了一下Miguel A.Hernan和James M.Robins在《What If》这本书16章的内容,受限于翻译能力,中文有时候并不能完整的表达原文的意思,因此我会在有的地方贴出英文原文,以避免中文翻译带来的误解。此外,文中涉及的符号标记难免有解释不到位的地方(比如$Y^a$和$Y^A$的区别),这对没有接触过因果推断的人会存在一定的理解难度,但如果要从这些符号的意思、区别讲起,那就要从《What If》的第一章讲起了。

在这本书16章以前介绍的因果效应估计算法均依赖于一个前提假设:干预变量(Treatment)和结果变量(Outcome)之间涉及的混杂变量(confounders)和选择偏倚(selection bias)已被很好的处理。

The causal inference methods described so far in this book rely on a key untestable assumption: all variables needed to adjust for confounding and selection bias have been identified and correctly measured.

然而这个条件在实际场景中难以被满足,且有些变量为不可观测变量时,很难在因果效应估计中对其进行调整(adjust)。由此有些学者提出了其他的因果效应方法,这些方法仅需要依赖于一个更为宽松的假设,即并不需要所有的变量都被调整用以评估。工具变量估计(Instrument Variable Estimation,IV Estimation)就是其中的一种方法。

1. 什么是工具变量?

同时满足下列三个条件的变量称为工具变量,此处用$Z$表示:

  1. $Z$和干预变量$A$之间具有相关性($Z$ is associated with $A$)
  2. $Z$除了通过$A$间接影响结果变量$Y$以外,$Z$不直接影响$Y$($Z$ does not affect $Y$ except through its potential effect on $A$)
  3. $Z$和$Y$不受共同的变量影响,即$Z$和$Y$之间没有混杂变量($Z$ and $Y$ do not share causes)

图16.1展现了经典的工具变量$Z$与$A$和$Y$之间的因果关系,其中$U$为不可观测的混杂变量。在后文我们将介绍如何利用工具变量进行因果效应估计,即,如果我们能找到一个工具变量,那么即使在因果图(causal graph)中存在不可观测的混杂变量,我们仍然可以得到$A$与$Y$之间的无偏估计。 Alt text

在此之间,我们先加深一下工具变量的概念。如果我们在图16.1中加入一条$Z$指向$Y$的线(即$Z$变量影响$Y$的值)呢?如图16.8,此时$Z$违反了工具变量成立的第2个条件,即$Z$变量不能直接影响$Y$变量的值,因此图16.8中的$Z$不能作为工具变量。 Alt text

那么图16.10的$Z$是否可以称为工具变量呢?答案是不能。因为$U_1$和$U_2$是关于$Z$和$Y$的混杂变量,也就是说$Z$和$Y$的取值同时受到了$U_1$和$U_2$的影响,显然违反了工具变量的第3个条件。 Alt text

现实情况中的因果图可能更为复杂,需要我们详尽地列出相关变量之间的关系。例如图16.2,$Z$与$A$之间并无因果关系,然而它们却通过变量$U_z$具有相关性。注意,工具变量的第一个条件只要求$Z$与$A$具有相关性,而并不要求具有因果性,因此图16.2中的$Z$是工具变量。形如图16.1中$Z$对$A$具有因果关系的工具变量$Z$,我们称之为因果工具变量(causal instrument)。而在图16.2中,真正的因果工具变量是$U_z$,但遗憾的是$U_z$是一个不可观测变量,对于这种不可观测的因果工具变量(unmeasured causal instrument)可以寻找一个可观测的变量作为代理工具变量(proxy instrument)以进行工具变量估计,即图16.2中的$Z$。 Alt text

有了代理工具变量的概念,我们更容易找到符合条件的工具变量来进行IV估计。图16.3的$Z$仍然是一种代理工具变量:方框中的变量$S$是关于$Z$和$U_z$的对撞因子(collider),为了方便理解,我们可以假设$S=Z+U_z$。在控制变量$S$之前,变量$Z$与$U_z$互为独立,因此$Z$与$A$并无相关性,无法作为工具变量。然而当我们控制了$S$之后,即令$S=Z+U_z=1$(等于某个具体值,此处使用等于1作为举例),则$Z=1-U_z$,变量$Z$与$U_z$建立了相关关系,进而$Z$与$A$也确立了相关性。因此我们说,对于图16.3,当我们控制了变量$S$时,我们可以用$Z$作为工具变量进行IV估计。 Alt text

2. 如何验证变量是工具变量?

在上一节中,我们根据已经画好的因果图讨论变量是否为工具变量。当具有完整的因果图时,工具变量的确立较为简单,我们只需要确认工具变量的三个条件是否在因果图中成立。然而遗憾的是,现实世界是一个复杂系统,我们研究的因果问题涉及了太多变量且常常无法完备的画出因果图,那么我们又如何去需找工具变量呢?

对于一个变量,如果它是工具变量,那么我们需要验证他是否满足上述三个条件:

  1. 验证$Z$与$A$相关:empirically verifiable 两个变量是否相关只需要统计数据集中不等式$P_r[A=1\vert Z=1]-P_r[A=1\vert Z=0]>0$是否成立。 (ps:数据集应包含尽量多的数据)
  2. 验证$Z$不会直接影响$Y$:cannot be empirically verifiable 有的人可能会想,是不是只要控制$A$之后,验证$Z$与$Y$不具有相关性就可以了。这种想法其实是错误的,如下图16.2,当我们控制了变量$A$时,$A$作为$U_z$与$U$的对撞因子,$U_z$与$U$建立相关关系,且变量$U$与$Y$具有因果关系,则$U_z$与$Y$具有相关性,同时$U_z$影响变量$Z$,因此变量$Z$与变量$U_z$也会具有统计上的相关性。然而实际在因果图16.2中,变量$Z$并不直接影响$Y$。因此我们实际上并不能通过统计去证明$Z$不会直接影响$Y$。 Alt text
  3. 验证$Z$与$Y$之间没有混杂变量:cannot be proved 介于现实世界中存在着太多不可观测的变量以及未知的变量,因此我们无法完全证明$Z$不会直接影响$Y$。在实践中,我们只能尝试举例存在混杂因子而去排除无法作为工具变量的变量,从而在剩下的变量中选定工具变量。

综上,条件2和条件3其实只能作为假设条件,并无法进行严格的证明。在实践过程中,我们通常假设条件2和条件3成立,并将选定的工具变量称为候选的工具变量(candidate instrument)。

3. 三种常用的候选工具变量

在实践中,研究者们常常选取如下三种变量作为工具变量:

  1. 基因变量(Genetic factors): 例如喝酒($A$)对心血管疾病($Y$)的影响,$Z$可以是与酒精代谢有关的基因。
  2. 偏好类型的变量(Preference): 例如处方药($A$)对疾病($Y$)的影响,$Z$可以是医生对该处方药的偏好。
  3. 获取成本(Access): 例如处方药($A$)对疾病($Y$)的影响,$Z$可以是处方药的价格。

4. 怎么使用工具变量进行估计?

当我们找到具有满足条件1-3的工具变量时,仍然不足以进行干预变量$A$对结果变量$Y$的平均因果效应估计(average causal effect),只能得到平均因果效应值所属的区间,但这个区间往往非常大,其中并不具有参考意义。

An instrument by itself does not allow us to identify the average causal effect of A on Y, but only identifies certain upper and lower bounds. Typically, the bounds are very wide and often include the null value.

因此,我们需要添加额外的假设以获得变量$A$对$Y$的因果效应估计。我们将在第5节讨论这些假设,在此之前我们先讨论使用工具变量进行因果效应估计需要注意的事情。

当我们添加了额外的假设时,对于二值工具变量,平均因果效应可以通过以下公式计算得到: \(E[Y^{a=1}]-E[Y^{a=0}]=\frac{E[Y\vert Z=1]-E[Y\vert Z=0]}{E[A\vert Z=1]-E[A\vert Z=0]}\) 对应的,通常有三种估计方法来计算该公式:

  1. 直接统计$E[Y\vert Z=1]$、$E[Y\vert Z=0]$、$E[A\vert Z=1]$、$E[A\vert Z=0]$
  2. 回归两个模型$E[A\vert Z]=\alpha_0+\alpha_1Z$、$E[Y\vert Z]=\beta_0+\beta_1Z$
  3. 回归两个模型$E[A\vert Z]=\alpha_0+\alpha_1Z$、$E[Y\vert Z]=\beta_0+\beta_1\hat{E}[A\vert Z]$

回顾工具变量的前两个条件:

  1. $Z$和干预变量$A$之间具有相关性: 虽然条件只要求具有相关性即可,但如果我们选择的工具变量$Z$与$A$相关性较弱(此时称$Z$为弱工具变量(weak instrument)),则上述公式中的分母特别小,会极度放大分子的偏差,导致因果效应估计具有较大偏差。 弱工具变量的定义:An instrument is weak if the F-statistic associated to the observed Z-A association is "small", typically meaning less than 10. 因此,相比于完全满足工具变量3个条件的弱工具变量,稍微不满足条件2和条件3的强工具变量更适合用于工具变量估计。 A stronger instrument that slightly vialates condition (ii) and (iii) may be preferable to a less invalid, but weaker, proposed instrument
  2. $Z$除了通过$A$间接影响结果变量$Y$以外,$Z$不直接影响$Y$: 小节2讲过该条件为不可验证的条件。但需要注意的是,实际研究场景中通常干预变量为连续变量或多值变量,若为了研究方便将连续/多值变量$A$更改为粗粒度或二值变量$A^*$时,会引入$Z$与$Y$的直接路径,导致$Z$变量不可用为工具变量(见图16.9)。 Alt text

5. 使用IV估计的额外假设

第4节我们说到,当我们找到具有满足条件1-3的工具变量时,仍然还需要添加额外的假设以获得变量$A$对$Y$的因果效应估计。目前有两种比较流行的额外假设用于IV估计:1)同质性假设;2)单调性假设。 满足这两种之一的假设便可以使用IV估计出变量$A$对$Y$的无偏因果效应。

5.1 同质性假设(HOMOGENEITY)

在严格的定义下,如果两个研究对象$i$和$j$在相同的变量$A=a$的条件下均能获得相同的结果变量值$Y$,即$Y^a_i=Y^a_j, a\in A$,则称这两个研究对象$i$和$j$是同质的。在生活中,这个同质性假设一般很难成立,特别是当Y值、a值为连续型变量时,要找到两个具有完全一样的$Y$~$A$分布的研究对象极为艰巨。俗话说,世界上不可能存在两片同样的叶子。

因此后来有研究者提出可以使用较为放松的同质性假设:

\[E[Y^{a=1}-Y^{a=0}\vert Z=1,A=a] = E[Y^{a=1}-Y^{a=0}\vert Z=0,A=a]\]

也就是说我们不再要求研究对象$i$和$j$两个具有完全一样的$Y$~$A$分布,只需要它们在给定$A=a$条件下,工具变量$Z$和结果变量$Y^a$独立($Y^a\perp Z\vert A$)我们便认为它们具有同质性(还记得工具变量的第2个条件吗?)。

更直观的同质性假设直接假设了在研究问题中不存在会影响$Y$的变量$U$:

\[E[Y^{a=1}\vert U]-E[Y^{a=0}\vert U]=E[Y^{a=1}]-E[Y^{a=0}]\]

这个假设讲个体上的同质性问题放松为群体性的同质性问题,但是该假设也是不可证的,和工具变量的第3个条件一样,我们只能通过举例进行排除,但永远都无法证实是否该问题中不存在会影响$Y$的变量$U$。

虽然在后来有研究者提出一种具有可测试意义的同质性假设:在$U$的统计水平下,因果效应应该相同,即

\[E[A\vert Z=1, U]-E[A\vert Z=0, U] = E[A\vert Z=1] - E[A\vert Z=0]\]

然而这些假设仍然还是不切实际、不可验证。毕竟在验证假设前,你需要先找到所有的相关变量$U$(大千世界要遍历所有变量几乎不可能),并且所有变量都是可观测的(比如情商,很难使用统一的标准进行量化)。

因此在应用上,基本使用两种方法去绕过同质性假设:

  1. 在IV估计中引入基线协变量(baseline covariates): 基线协变量通常是指受试者开始使用研究用药之前(通常在随机化前)测定的或观察到的,并且预期会对所分析的主要变量产生影响的定性因素或定量变量。最常见的方法为Structural Mean Models。

  2. 不使用同质性假设,使用单调性假设。

Structural Mean Models将因果效应写成等式:

\(E[Y-Y^{a=0}\vert A,Z]=A(\beta_0+\beta_1 Z)\)或\(E[Y^{a=1}-Y^{a=0}\vert A=1, Z]=\beta_0 + \beta_1 Z\)

其中$\beta_1$等效于工具变量$Z$对于结果变量$Y$的效应系数(The $\beta_1$ quantifies additive effect modification by $Z$.),即: (i) 当$Z=0$时:$E[Y^{a=1}-Y^{a=0}\vert A=1, Z=0]=\beta_0$;

(ii) 当$Z=1$时:$E[Y^{a=1}-Y^{a=0}\vert A=1, Z=1]=\beta_0+\beta_1$

根据同质性假设(Assume that there is no additive effet modification by $Z$),则$\beta_1=0$(注意,这个假设为不可验证假设)。 由$E[Y-Y^{a=0}\vert A,Z]=A(\beta_0+\beta_1 Z)$可得$E[Y-A(\beta_0+\beta_1 Z)\vert Z]= E[Y^{a=0}\vert Z]$: (1) 令$Z=1$则$E[Y^{a=0}\vert Z=1]=E[Y-A(\beta_0+\beta_1)\vert Z=1]$,

(2) 令$Z=0$则$E[Y^{a=0}\vert Z=0]=E[Y-A\beta_0\vert Z=0]$。

根据工具变量的第二个条件:$E[Y^{a=0}\vert Z=1]=E[Y^{a=0}\vert Z=0]$,我们可以得到: \(\begin{align} E[Y-A(\beta_0+\beta_1)\vert Z=1]&=E[Y-A\beta_0\vert Z=0]\\ E[Y\vert Z=1]-(\beta_0+\beta_1)E[A\vert Z=1] &= E[Y\vert Z=0]-\beta_0 E[A\vert Z=0]\\ E[Y\vert Z=1]-\beta_0E[A\vert Z=1] &= E[Y\vert Z=0]-\beta_0 E[A\vert Z=0]\\ \beta_0(E[A\vert Z=0]-E[A\vert Z=1]) &= E[Y\vert Z=0]-E[Y\vert Z=1] \\ \beta_0 &=\frac{E[Y\vert Z=0]-E[Y\vert Z=1]}{E[A\vert Z=0]-E[A\vert Z=1]} \end{align}\) 又因为: \(\begin{align} \beta_0 &=E[Y^{a=1}-Y^{a=0}\vert A=1, Z] (Structural Mean Models) \\ \beta_0 &=E[Y^{a=1}-Y^{a=0}\vert A=1] \\ \beta_0 &=E[Y^{a=1}]-E[Y^{a=0}] \end{align}\) 所以\(\beta_0 =\frac{E[Y\vert Z=0]-E[Y\vert Z=1]}{E[A\vert Z=0]-E[A\vert Z=1]}=E[Y^{a=1}]-E[Y^{a=0}]\),证毕。

5.2 单调性假设(MONOTONICITY)

考虑工具变量$Z$为二值变量且干预变量$A$也为二值变量,根据$A$与$Z$变量的值(compliance types/principal strata)我们可以将人群划分为四种:

从左至右:

  1. always takes: 无论$Z$值为多少,这些人的$A$值恒等于1;
  2. never takers: 无论$Z$值为多少,这些人的$A$值恒等于0;
  3. compliers: 这些人的$A$值始终与$Z$值保持一致;
  4. defiers: 这些人的$A$值始终与$Z$值保持相反; 日常生活中defiers这类人较为少见,因此我们可以假设人群中不存在defiers,此时便称满足单调性假设:$A^{z=1}_i\geq A^{z=0}_i$。回顾我们的IV估计公式:$\text{IV estimation}=\frac{E[Y\vert Z=1]-E[Y\vert Z=0]}{E[A\vert Z=1]-E[A\vert Z=0]}$,假设人群一共有$N$个人,则我们有分子: \(\begin{align} E[Y\vert Z=1]-E[Y\vert Z=0]&=\frac{\sum_N(Y^{z=1}-Y^{z=0})}{N}\\ &=\frac{\sum_{N_{\text{always}}}(Y^{z=1}-Y^{z=0})+\sum_{N_{\text{nerver}}}(Y^{z=1}-Y^{z=0})+\sum_{N_{\text{compliers}}}(Y^{z=1}-Y^{z=0})}{N}\\ &=\frac{\sum_{N_{\text{compliers}}}(Y^{z=1}-Y^{z=0})}{N}\\ &=\frac{\sum_{N_{\text{compliers}}}(Y^{z=1}-Y^{z=0})}{N_{\text{compliers}}}*\frac{N_{\text{compliers}}}{N} \end{align}\) 以及分母: \(\begin{align} E[A\vert Z=1]-E[A\vert Z=0]&=\frac{N_{\text{always}}+N_{\text{compliers}}}{N} + \frac{N_{\text{always}}}{N}\\ &=\frac{N_{\text{compliers}}}{N} \end{align}\) 因此当满足单调性条件时,IV估计得到的是compliers的因果效应估计: \(\begin{align} \text{IV estimation}&=\frac{E[Y\vert Z=1]-E[Y\vert Z=0]}{E[A\vert Z=1]-E[A\vert Z=0]}\\ &=\frac{\frac{\sum_{N_{\text{compliers}}}(Y^{z=1}-Y^{z=0})}{N_{\text{compliers}}}*\frac{N_{\text{compliers}}}{N}}{\frac{N_{\text{compliers}}}{N}}\\ &=\frac{\sum_{N_{\text{compliers}}}(Y^{z=1}-Y^{z=0})}{N_{\text{compliers}}}\\ &=E[Y^{a=1}-Y^{a=0}|A^{z=1}=1,A^{z=0}=0] \end{align}\)

tips:虽然我们这里用compilers等词汇去形容人群,但在实际应用中,工具变量$Z$不一定需要是treatment assignment。例如$Z=$烟价是否较高,$A=$是否戒烟,$Y=$体重。

单调性假设的缺点

  1. 虽然可以通过IV估计的分母知道complier在人群中的占比,但却无法在人群中识别出来。例如通过估计已经知道了有50%的人通过药物$A$可以降低血压$Y$,但在实践操作时,你并不知道哪些人(compliers)应该使用药物$A$。The standard IV estimand identifies a particular weighted average of the effect in all individuals in the population, which makes it difficult to interpret.
  2. 如果人群中的complier占比比较小,那对于决策者并没有意义。例如通过IV估计发现通过药物$A$可以明显的降低血压$Y$,但实际上complier的占比只有5%,那么我们并不能说这个药物$A$对降低血压有效。
  3. 人群中不包含defier的假设并不一定能被满足。Monotonicity is unlikely to hold when the decision to treat is the result of weighing multiple criteria or dimensions of encouragement that include both risk and benefits.
  4. 不适用于非二值的工具变量(从连续型变量离散化来的二值变量也不适用)。The interpretation of the IV estimand as the effect in the compliers is questionable when the proposed dichotomous instrument is not causal, even if monotonicity held for the continuous causal instrument.

6. 总结

  1. 工具变量需要满足三个假设
    • i. $Z$和干预变量$A$之间具有相关性 (可通过数据统计验证);
    • ii. $Z$除了通过$A$间接影响结果变量$Y$以外,$Z$不直接影响$Y$ (不可验证);
    • iii. $Z$和$Y$不受共同的变量影响,即$Z$和$Y$之间没有混杂变量 (不可验证);
  2. 当满足(iv)同质性假设时,使用工具变量可以估计人群中的平均因果效应:
    • a. 同质性假设等价于将structural mean model中与$Z$相关的系数设为0(不可验证)
    • b. 在实践中很难满足同质性假设
  3. 当满足(iv)单调性假设时,使用工具变量可以估计complier人群的平均因果效应:
    • a. 单调性假设仍然不可验证,但在实践中是一个相对合理的假设
    • b. 较适用于工具变量$Z$和干预变量$A$都为二值变量的情况
  4. IV估计的优点:可以绕过A与Y之间不可观测的混杂因子
  5. IV估计的缺点:需要排除Z与Y之间的混杂因子
  6. IV估计适用场景:存在许多无法衡量的A与Y之间的混杂因子,且A为与时间无关(time-fixed treatment)的二值变量,且找到一个与A强相关的causal instrument,且满足同质性或满足单调性且对compiler因果效应感兴趣。

参考文章:

【1】A book of What If