摘要
中介效应分析与调节效应分析是国内经济学因果推断经验研究中被广泛采用的两种研究手段,但是存在不同程度的误用。前者的主要问题在于过度使用中介效应逐步法检验,后者的主要问题是对其在因果识别中的作用阐发不足。为此,本文深入讨论了中介效应检验的偏误、如何正确开展中介效应分析,以及如何使用调节效应分析来强化因果关系论证,并针对当前的使用现状提出了相应的操作建议。
一、引言
【背景介绍】自20世纪八九十年代以来,经济学因果推断的经验研究范式经历了“可信性革命”(Credibility Revolution)(Angrist and Pischke, 2010),从重视函数形式的搜索和检验、重视不可观测变量方差结构的建模,转向重视研究设计,强调运用实验和准实验数据,强调寻找外生的特定冲击,强调通过挖掘研究情境的制度蕴涵和理论蕴涵而非仅依赖统计方法来进行因果关系的论证。
【概念定义】人类社会经济生活现象中的因果关系往往是互相缠绕、错综复杂的。当从特定原因到特定结果的因果关系被数据初步验证,研究者会进一步关心这一因果关系的作用渠道(Channel)和作用机制(Mechanism)。分析因果关系作用渠道的出发点是
,现象之间的因果关系可能包含多个逻辑环节,原因不是直接作用于结果,因此,有必要考察原因通过因果链条中的哪个或哪些中间变量影响结果,这样的分析经常被称作中介效应(Mediating Effect)分析。而分析因果关系作用机制的出发点是
,一种因果关系可能不会同一不变地作用于所有个体和所有时点,因此,有必要考察因果关系的强度如何随着对象特征和现实条件的不同而产生差异,这样的分析经常被称作调节效应(Moderating Effect)分析。
【现有研究与不足】新因果推断范式自然也深刻地改变了国内经济学经验研究的图景。与此同时,中介效应分析和调节效应分析这两种研究手段在近年来的经验研究论文中出现的频率越来越高,成为一种研究“时尚”,甚至是标准化操作。以《中国工业经济》为例,在最近两年发表的全部文章中,属于约简主义(Reduced-form Approach)因果推断经验研究范畴的文章一共151篇,占比63.2%;而这当中进行了中介效应分析的论文有85篇,占比56.3%;进行了调节效应分析的论文更是多达133篇,占比88.1%。但不无遗憾的是,目前国内经济学研究中出现的中介效应分析和调节效应分析存在一定的盲目性和机械性,有的研究做了中介效应分析,却不问是否可信;有的研究做了调节效应分析,却不知用处何在。
【本文研究目的】鉴于此,本文尝试对这两种研究手段的工作原理和使用现状进行反思性的分析,并给出操作建议,以期引发更广泛的讨论。本文认为,目前中介效应分析的主要问题是对嫁接自心理学的中介效应逐步法检验的滥用;调节效应分析的主要问题是对其在因果识别上的重要性认识不足,实证结果的理论阐发不充分。本文的结论和建议都基于一个原则:因果推断的经验研究和写作需要紧紧围绕更干净的因果识别这一首要目标。对统计手段的合理运用和对实证结果的准确阐释需要服从于这一原则。因此,本文希望达到两个目的:一是引发大家反思中介效应分析存在的科学性问题;二是引发大家重新认识调节效应分析在研究设计中的地位。最终,希望形成正确讨论因果关系作用渠道和作用机制的共识,进而提高国内经济学经验研究的可信性。
【章节安排】本文余下部分的结构安排如下:第二、三部分是预备知识,其中,第二部分简要介绍了何为因果推断以及因果识别的两种基本策略,第三部分介绍了中介效应分析的逐步法检验与调节效应分析的交互项模型;第四至六部分是本文的主体,其中,第四部分主要讨论中介效应逐步法检验的偏误问题,第五部分着重讨论如何开展科学的中介效应分析,第六部分转向调节效应分析,讨论其与异质性分析以及因果识别的关系;第七部分概括了这两种方法在国内经济学研究中的应用现状,并给出相应的操作建议;第八部分作简短总结。
二、因果识别的基本策略
三、中介效应分析与调节效应分析的现行做法
3.1.中介效应的定义
中介效应是指原因通过一个或几个中间变量影响结果,这种中间变量被称作中介变量(Mediating Factor, 或简称Mediator)。
考察因果关系作用渠道的意义至少体现在三个方面
:①能够有助于更好地认识正在考察的某项处理本身。社会科学因果推断研究经常具备的一项特征是,原因和结果的关系不那么直接而迫近,相反,它们之间的逻辑链条往往比较长,要么原因是结果的一个隐秘的原因,要么结果是原因的一个意料之外的结果(Unintended Consequence)。通过考察因果效应何以存在、如何存在,使我们更有理由相信所观测到的因果效应不是统计上的偶然,不是“第I类错误”,从经验上确认这项处理的内在工作方式,进而更好地理解结果的发生学。②一旦确立了这项处理经由特定渠道影响结果的因果模型,就能够更方便地判断研究结论是否可以被推广到其他总体、其他制度环境以及其他类似处理措施,换言之,可以通过考察特定渠道是否起作用来推测这种处理效应在其他情境中是否也会显现。③如果我们所关心的这项处理是来自人为设计和干预的,那么关于其作用渠道的知识和经验将有助于针对性地改进设计和干预,使其特别有利于通过特定渠道产生影响,从而提升其工作效果。
3.2.中介效应检验
社会心理学家Judd和Kenny在1981年发表的论文(Judd and Kenny, 1981a)和出版的专著(Judd and Kenny, 1981b),是把中介效应分析引入社会科学项目评估的开创性工作。此后,基于线性回归的中介效应分析在心理学、流行病学、政治学、社会学、组织行为学等领域得到了广泛的应用,尤其是社会心理学研究,几乎成为必不可少的操作。本文接下来要讨论的中介效应分析不是泛指对因果关系作用渠道的探究,而是特指由Baron and Kenny(1986)提出的一整套检验流程。
他们认为,中介效应的存在需要满足四个条件:① α 1 \alpha_1 α1不为零;② γ 1 \gamma_1 γ1不为零;③ β 2 \beta_2 β2不为零;④ β 1 \beta_1 β1为零,或至少其绝对值小于 α 1 \alpha_1 α1。
相应地,整个检验流程由四个先后步骤组成
① 估计(1)式,统计上显著的 α 1 ^ \hat{\alpha_1} α1^ 意味着存在可以“被中介”的效应;
②估计(3)式,统计上显著的 γ 1 ^ \hat{\gamma_1} γ1^ 意味着处理影响了中介;
③估计(2)式,统计上显著的 β 2 ^ \hat{\beta_2} β2^ 意味着中介影响了结果;
④如果 β 1 ^ \hat{\beta_1} β1^ 在统计上不显著,则意味着M是D与Y关系的“完全中介”,否则意味着M是“部分中介”。
这一方法也被称为逐步法(Causal Steps Approach)。
3.3.调节效应的定义与常见情形
调节效应是指原因对结果的影响强度会因个体特征或环境条件而异,这种特征或条件被称作调节变量(Moderating Factor, 或简称Moderator),如图5所示。交互项模型是对调节效应进行建模的主要方式。
3.3.1两个处理变量的情形。
3.3.2一个处理变量的情形(重点⭐)
此时称D对Y的因果影响受到M的调节:
- 如果$\beta_3>0 $,则D对Y的正面影响随着M的增大而增强(或负面影响随着M的增大而减弱);
- 如果$\beta_3 < 0 $,则D对Y的正面影响随着M的增大而减弱(或负面影响随着M的增大而增强)。
如果 β 3 ^ \hat{\beta_3} β3^在统计上显著,则称观测到了显著的调节效应。但 β 1 ^ \hat{\beta_1} β1^的大小和统计显著性是否具有经济意义,要视具体的研究情境而定,因为此时$ \beta_1 $的含义是当M=0时D对Y的因果效应。很有可能当M=0时D对Y影响不显著,才是符合理论预期的。
3.3.3调节变量为虚拟变量的情形。
因此,当调节变量为虚拟变量时,有三种呈现结果的方式:
- 第一种是报告(8)式的结果,这种方式的好处是直接显示了D对Y的因果效应的组间异质性,缺陷是M=1组的因果效应没有直接显示。
- 第二种是分组报告(12)式的结果,这种方式的好处是直接显示了这两个组的因果效应,缺陷是因果效应的组间异质性检验还需要额外通过(8)式来实现。
- 第三种是报告(13)式的结果,这种方式的好处也是直接显示了这两个组的因果效应,因果效应的组间差异虽然没有直接显示,但是可以方便地通过检验 H 0 : γ 2 = γ 3 H_0: \gamma_2 = \gamma_3 H0:γ2=γ3 来实现。
3.3.4处理变量和调节变量均为虚拟变量的情形(双重差分模型)
四、对中介效应检验的反思
4.1.心理学对中介效应检验的反思
Judd and Kenny(1981a, 1981b)在引入中介效应分析之初曾明确指出,必须认识到中介效应分析的本质是一种相关性分析。具体而言,用线性回归方法考察(1)式—(3)式会存在两个问题**:统计检验的功效较低,效应的估计可能存在偏误** (Judd and Kenny, 1981a)。
低统计功效来源于两个方面:
- 一是处理变量和中介变量是高度相关的,因此,在以结果变量为被解释变量的回归,即(2)式中,两者可能高度共线性,从而增大系数估计的标准误,降低统计显著性,也就是说,如果无法拒绝β1=0的原假说(即所谓“完全中介”),那么可能是因为统计功效太低;
- 二是中介变量和结果变量都可能存在测量误差,以其为被解释变量时,测量误差会导致统计功效降低。
与此相比,估计偏误问题更为关键:
- ①虽然有可能通过随机实验的方式保证处理的外生性,但几乎总是无法干预中介变量,因此,可能存在既影响中介变量又影响结果变量的混淆因素,如果这种因素在分析中被遗漏,就有可能导致(2)式中的系数估计产生偏误,这一问题即便在随机实验研究中也无法避免。
- ②中介变量的测量误差倾向于使(2)式中 β 2 \beta_2 β2的估计产生趋零偏误,进而使得 β 1 \beta_1 β1被高估。
- ③中介变量与结果变量可能是互为因果的,这也会导致(2)式产生估计偏误,偏误的方向取决于双向因果的符号。
Kenny et al.(1998)指出,逐步法中的第1步不是必须的。如果 α 1 = 0 \alpha_1=0 α1=0,则意味着间接效应与直接效应方向相反。例如,D表示儿童的智商,Y表示儿童的情绪稳定性,通常智商越高的儿童情绪越稳定,但高智商的儿童可能更容易受到同学的欺负,而被欺负将导致其情绪不稳定。此时智商对情绪稳定的间接效应是负向的,与直接效应方向相反(Judd and Kenny, 2010)。又如,D表示负面新闻报道,Y表示民众的集体参与。一方面,负面新闻报道使得民众认识到社会后果的重要性从而鼓励了集体参与;另一方面,负面新闻报道削弱了民众对政府的信任从而降低了集体参与。这两种中介所起的作用相反,可能互相抵消(Hayes, 2009)。因此,Kenny et al.(1998)认为,确认中介效应存在的关键是逐步法中的第2步和第3步。
4.2.中介效应检验的偏误
从前文的介绍中可以看出,心理学中的中介效应检验与经济学中的因果推断研究的“格格不入”之处在于,后者的研究主题是考察处理变量对结果变量的因果影响,如何选择合适的研究情境,运用经济学理论论证关键的识别假设,提高研究手段的因果识别力(Identification Power),是研究者主要致力的方向;而前者的聚焦点则是处理变量经由中介变量影响结果变量这一间接效应本身。因此,在前者的研究中,关键的识别假设被有意无意地认为是不证自明的,因果识别似乎“在场”,却分明“缺席”。考虑到一方面国际学术界正在对不严谨的中介效应分析的泛滥进行反思(Bullock et al., 2010),另一方面中介效应检验在国内经济学界大有“攻城略地”之势,笔者认为,迫切的任务是直观地展示中介效应检验的核心缺陷所在。
假定D是一种随机处理,即
E
(
ε
Y
1
D
)
=
0
E(\varepsilon_{Y_1} D)=0
E(εY1D)=0 和
E
(
ε
M
D
)
=
0
E(\varepsilon_M D)=0
E(εMD)=0 成立,因此,(1)式和(3)式的普通最小二乘估计分别能够得到
α
1
\alpha_1
α1 和
γ
1
\gamma_1
γ1 的一致估计:
为了验证理论推导的结论,考虑如下数据生成过程:
D
∼
N
(
0
,
1
)
…
…
(
21
)
D \sim N(0,1)……(21)
D∼N(0,1)……(21)
e
∼
N
(
0
,
1
)
…
…
(
22
)
e \sim N(0,1)……(22)
e∼N(0,1)……(22)
M
=
D
+
e
+
ε
M
′
,
ε
M
′
∼
N
(
0
,
1
)
…
…
(
23
)
M=D+e+\varepsilon^{\prime} _{M}, \varepsilon_{M}^{\prime} \sim N(0,1)……(23)
M=D+e+εM′,εM′∼N(0,1)……(23)
Y
=
D
+
M
+
ρ
e
+
ε
Y
′
Y
2
,
ε
Y
2
′
∼
N
(
0
,
1
)
…
…
(
24
)
Y=D+M+\rho e+\varepsilon_{Y}^{\prime} Y_{2}, \varepsilon^{\prime}_{ Y_2} \sim N(0,1)……(24)
Y=D+M+ρe+εY′Y2,εY2′∼N(0,1)……(24)
基于同样的理由,即使不寻求对直接效应和间接效应的无偏估计,转而采取一种更保守的因果推断立场:通过观察Y对D的回归中加入M后D的系数大小是否发生显著改变,也就是通过观察(或正式地统计检验)
β
1
\beta_1
β1估计的绝对值是否显著小于
α
1
\alpha_1
α1估计的绝对值来判断是否存在中介效应,这种研究手段也可能导致错误的结论。例如,把(24)式改为:
Y
=
M
+
ρ
e
+
ε
Y
′
Y
2
,
ε
Y
2
′
∼
N
(
0
,
1
)
…
…
(
25
)
Y=M+\rho e+\varepsilon_{Y}^{\prime} Y_{2}, \varepsilon^{\prime}_{ Y_2} \sim N(0,1)……(25)
Y=M+ρe+εY′Y2,εY2′∼N(0,1)……(25)
此时面临的是完全中介情形,并令 ρ = − 2 \rho=-2 ρ=−2。由图9(a)可见,直接效应估计集中在1附近,偏离了其真实值0;间接效应估计集中在0附近,偏离了其真实值1。事实上,如果在每次模拟中都采用堆叠回归的方式对原假说 H 0 ∶ α 1 = β 1 H_0∶\alpha_1=\beta_1 H0∶α1=β1进行检验,1000次模拟中只有69次可以在10%的显著性水平上拒绝该原假说,也就是说,只有6.9%的概率可以正确地发现中介效应的存在。
相反,如果把(24)式改为:
Y
=
D
+
ρ
e
+
ε
Y
′
Y
2
,
ε
Y
2
′
∼
N
(
0
,
1
)
…
…
(
26
)
Y=D+\rho e+\varepsilon_{Y}^{\prime} Y_{2}, \varepsilon^{\prime}_{ Y_2} \sim N(0,1)……(26)
Y=D+ρe+εY′Y2,εY2′∼N(0,1)……(26)
此时面临的是无中介效应的情形,并令 ρ = 2 \rho=2 ρ=2。但是由图9(b)可见,直接效应估计集中在0附近,偏离了其真实值1;间接效应估计集中在1附近,偏离了其真实值0。事实上,如果在每次模拟中同样对原假说 H 0 ∶ α 1 = β 1 H_0∶\alpha_1=\beta_1 H0∶α1=β1 进行检验,1000次模拟全部可以在1%的显著性水平上拒绝该原假说,也就是说,总是得到完全中介的错误结论。
在以处理观测性数据为主的经济学因果推断研究中,研究者面临着更富有挑战性的处境:真实的数据生成过程很可能如图7©所示。此时处理变量的生成方式不再来自于研究者外生的实验干预,而来自于研究对象的主动选择,因此,研究者在研究设计上的努力主要聚焦在如何解决处理变量的内生性问题,中介变量的内生性问题不得不成为等而次之的问题。或者说,解决处理变量的内生性并探究其对结果的影响,同解决中介变量的内生性并探究其对结果的影响,应该成为两项独立研究各自的主题,以确保每项研究都聚焦在一个核心解释变量上。除非能够从理论上证明并不存在同时影响中介变量和结果变量的混淆因素,或者能够良好地定义、充分地穷举和准确地测度这些混淆因素并且方便地将其作为控制变量放入(2)式中,否则这种回归并不能产生任何增进我们理解D→M→Y这一因果链条的有益知识。
五、经济学中的中介效应分析
5.1.中介效应检验为何少见
上文的讨论表明,中介效应检验的适用前提是,识别D对M和Y的因果关系比较容易,同时识别M对Y的因果关系也比较容易。而对于观测性数据研究,真实的数据生成过程纷繁复杂,找到合适的研究情境来研究D对Y的因果关系已属不易,研究中介效应更是困难,这就是为什么中介效应检验历来在经济学经验研究文献中很少见的主要原因。
即使不考虑中介效应检验的内生性偏误,大多数开展此类检验的研究往往发现,D对Y的总效应中,除了通过M发生的间接效应之外,有相当一部分是直接效应,也就是说(2)式的估计中, β 1 \beta_1 β1往往显著不为零,M是“部分中介”。这是由社会经济现象的复杂性所决定的,原本是可以预期到的,但将其作为正式研究结论的一部分却并非值得称道之事,实际上暴露出研究者对D究竟如何影响Y,有相当一部分是不清楚的。
中介效应检验逐步法的关键一步,是把中介变量M作为控制变量加入Y对D的回归中。但在观测性数据研究中,加入控制变量的目的主要是为了解决由控制变量所造成的处理的内生性,研究者指望,在控制变量取值相同的子总体(Subpopulation)内,D的变动不再受到不可观测的选择性的影响,可以近似看作外生的随机变动。所以,好的控制变量首先应该是一个处理前变量(Pretreatment Variable),其发生在D之前,既影响D,又影响Y。 相反,发生在D之后的控制变量是“坏”的控制变量,而控制中介变量就是一种典型的“坏控制”(Bad Control)(Angrist and Pischke, 2009)。即使在简单随机实验研究中,这一结论也成立。此时研究者并不需要控制变量来帮助识别,Y对D的回归可以得到 α 1 \alpha_1 α1的一致估计,但控制M之后,反而得不到 β 1 \beta_1 β1的一致估计。
中介效应检验不可靠,并不意味着不研究因果关系的作用渠道。一种常见的做法是,提出一个或几个中介变量M,这些变量和Y的因果关系在理论上比较直观,在逻辑和时空关系上都比较接近,以至于不必采用正式的因果推断手段来研究从M到Y的因果关系;然后仅看D对M的影响,即只考察(1)式和(3)式,而不考察(2)式,从而避免正式区分出在间接效应之外是否还有无法解释的直接效应。这样的例子比比皆是。例如,Dell(2011)通过地理回归断点设计方法,发现16—19世纪秘鲁的强制徭役制度(D)导致当代居民家庭消费水平降低以及儿童发育迟缓(Y);在随后的“持续影响的作用渠道”(Channels of Persistence)分析中,将被解释变量依次替换为土地所有权、教育和道路等公共品供给、劳动供给以及市场参与等消费的直接决定因素(M),即视为达到了检验渠道的目的,至于这些M如何影响Y、D经由M影响Y的效应有多大,以及D是否在影响M之外还会直接影响Y,就不再着墨了。
5.2.如何理解经济学中的中介效应检验
确实有少量研究在一定程度上借鉴了中介效应检验逐步法的思路,考察Y对D的回归中加入中介变量M后D的系数估计绝对值是否减少,以此论证M是否为D作用于Y的渠道。不过一旦认识到这种做法的固有缺陷,就不会过于强调论证力度,而只是将其视作某种试探性的证据。
两个例子略。
无论如何,在这两个例子中,都没有估计间接效应的大小并对其统计显著性进行正式检验。这仍然涉及对中介效应分析应该服务于何种目的的理解:究竟是在度量的意义上还是在解释的意义上考察中介效应?如果是前者,那么中介效应本身就是研究的主题;如果是后者,那么研究中介效应只是为了更好地理解处理与结果之间的因果关系。
5.3.如何理解貌似中介效应检验的做法
在文献中经常看到一类做法:先进行Y对D的回归,然后在回归中控制一个新的变量X,并发现D的系数依然显著,以此来论证D对Y的因果关系。用中介效应检验的术语来讲,这似乎意味着D对Y有“直接效应”。但这为何就能用来进行因果关系的论证呢?事实上,这种做法尽管看起来跟逐步法类似,但研究策略的出发点是截然不同的。
两个例子略,too。
在这类做法中,关于D如何影响Y,先有一个基准理论,然后提出一个竞争性理论,再构造能够刻画这种竞争性理论的控制变量X放入基准回归,如果发现竞争性理论不能完全解释D和Y的相关性(存在“直接效应”),则说明基准理论很可能是对的。这类做法和逐步法的区别在于,D不会影响X,X不是D影响Y的中介,D对Y的因果“故事”和X对Y的因果“故事”是两个互相竞争的“故事”
。Y同时对D和X的回归有时被形象地称作“赛马”(Horse Race)。这种“貌似中介效应检验”的做法,实际上是用来强化因果关系论证的。
最后需要指出的是,本文是在约简主义方法论的框架下讨论中介效应分析。中介效应分析的传统在经济学中实际上由来已久,至少可以追溯到20世纪50年代用线性方程组描述的宏观经济模型,如Klein and Goldberger(1955)。经过“可信性革命”以后,在强调因果推断的研究语境中,经济学家并不热衷于心理学家所从事的那一套中介效应检验,这也就不奇怪了。但不可忽视的是,在经济学中同时还有另一支结构主义(Structural Approach)经验研究范式。在这一范式中,结构模型的构建往往需要依赖于对函数形式或不可观测变量的分布形式的较强假设,但与之伴随的优势是,研究者可以更好地运用经济学理论来认识现实数据的生成过程,严格地推导待估计的因果关系(而不仅仅是用理论来直观地解释估计到的因果关系),这也使得严谨的中介效应分析得以可能。特别地,来自随机实验的数据与结构主义方法论相结合,使得研究者可以部分地放松和检验结构模型的识别假设,一方面结构模型的可信度提高,另一方面来自随机实验的约简式因果关系的作用机理可以得到更深入地理解。这方面一个新近的例子是Heckman et al.(2013)。对此的全面讨论超出了本文的范畴。
六、正确认识调节效应分析
6.1.调节效应分析与异质性分析的关系
调节效应分析和异质性分析这两者是一回事。最简单的理解:当调节变量M是虚拟变量时,相当于把全样本分为M=0和M=1两个组,交互项M×D的系数就是分组进行的Y对D的回归中D的系数的组间异质性。当M是连续变量时,本质上并没有发生变化,D对Y的因果效应受到M的调节,也就是可以理解为,D对Y的因果效应在高M组和低M组之间存在异质性。
如今研究者习惯做异质性分析,但是在研究设计阶段很少问为什么要做异质性分析。也许因果效应的异质性本身就是重要的。例如,在教育回报率的研究中,除了得到一个全样本的点估计之外,研究者可能还会关心女性的教育回报率是否显著地高于或者低于男性,由此得出不同的政策含义。
想要将因果效应的异质性本身作为文章的主要“卖点”,势必要求这种异质性的对比十分鲜明。比方说,因果效应在全样本中是显著的,但这种显著性只在其中一个子样本中继续存在,在另一个子样本中则不存在。例如,研究小额信贷(D)对家庭财务状况(Y)的影响,可能发现总体上两者呈现出反直觉的负相关——借了钱的家庭反而更容易陷入窘境;但对家庭按理财素养(M)进行分组后发现,这个负面效应只在理财素养低的家庭中存在,在理财素养高的家庭中并不存在。这样的结果既在意料之外,又在情理之中。
但在一些文献中,研究者往往只是出于扩充文章篇幅的需要,在基准回归之外,出于某种“八股本能”,按地区、规模、所有制等进行一些异质性分析。反正这样做很安全,不管系数是否有差异,不管差异的方向是正是反,都有话可说。例如,某种效应如果在东部地区比较显著,可以解释为东部地区的市场化程度较高;如果在西部地区比较显著,则可以解释为西部地区受到国家优惠政策的倾斜更大。再比如,某种效应如果对非国有企业比较显著,可以解释为非国有企业的经济激励更强;如果对国有企业比较显著,则可以解释为国有企业的非经济激励更强。这种缺乏事前理论分析与预期,完全根据事后估计结果强行附会理论解释的做法,无异于数据挖掘。
一篇因果推断经验研究文章的重点永远是正确识别处理变量对结果变量的因果关系,因此,文章中的每一字每一句都应该为这一目标服务。而异质性分析更重要的作用正是通过分析因果关系的作用机制来强化因果关系论证。
6.2.通过调节效应分析论证因果关系
仍然以Rajan and Zingales(1998)为例展开讨论。在其引言部分明确指出:“要推进对金融与增长之间因果关系的理解(Make Progress on Causality),一种方式是关注金融发展影响经济增长的理论机制的细节。”“金融发展理应更好地帮助特别依赖外部融资的企业或行业的增长。这样的发现能够成为金融与增长因果关系辩论中的决定性证据(Smoking Gun)。”“通过寻找金融影响增长的一种具体机制的证据,能够为因果关系提供更有力的检验(A Stronger Test of Causality)。”如何理解这样的论断?下面来详细说明。
如果从统计上发现了D与Y的相关性,并且想要主张D是Y的原因,那么可以通过检验D影响Y的某个具体机制来对从D到Y的因果关系进行论证。论证的逻辑如下:
- ①提出一个D影响Y的理论T。根据这个理论,D通过某个机制影响Y,并且可以识别出这一机制在某些子总体中存在,在另一些子总体中不存在,令M=1表示存在这一机制,M=0表示不存在这一机制。
- ②在M=1组,发现D与Y的相关性继续存在,而在M=0组,D与Y的相关性不复存在。
- ③可能导致D与Y出现相关性的竞争性解释还包括Y影响D的反向因果理论R,或者有混淆因素同时影响D和Y的遗漏变量理论C。如果无法想象理论R或理论C发挥作用的机制在M=1和M=0组存在差异,则理论R或理论C很可能不成立。否则,应该在M=0组也观察到D与Y的相关性。这样就完成了因果关系的强论证。这一逻辑的总结见表1。
有时两组中D与Y的相关性都存在,但在M=1组这种相关性更强,表现在Y对D的回归中D的系数估计绝对值在M=1组更大,且组间差异在统计上显著。这时至少可以说,D与Y的相关性不全是理论R或理论C所带来的,否则这种相关性应该在M=1和M=0组无差异。这样尽管没有证伪理论R或理论C,但至少证实了理论T,也在因果论证上迈出了一大步。这一弱论证的逻辑可以通过对表1稍作修改来总结,如表2所示。
6.3.好的调节变量
好的调节变量本身应该比较稳定,或者其变动是外生的,不受处理变量或结果变量的影响。Balli and Sorensen(2013)讨论了这个问题。如果D影响M,那么交互项M×D可能捕捉的是D2的效应,也就是说,M对D与Y关系的“调节”实际上反映的可能是D对Y的非线性影响。但这不是最重要的理由。内生的调节变量相当于在双重差分研究中,处理组和控制组的构成一直在变化(Compositional Change),并且导致这种变化的因素和Y相关(隐藏在扰动项之中),这就很难说处理组和控制组的平行趋势假定还能成立。
在Rajan and Zingales(1998)中,调节变量“外部融资依存度”的定义是企业资本性支出中的外部融资占比(再取行业中位数)。这个变量本身是资金市场上供求均衡的结果,高外部融资占比既可能反映行业需求面的技术特征(是否依赖外部融资),也可能反映金融市场发展水平的供给特征(外部资金是否充裕),因此不适合用一国一行业的实际外部融资占比作为调节变量。他们的做法是,考虑到美国的金融市场发展相对完善(资金供给具有充分弹性),美国企业的实际外部融资占比可能更多反映的是企业的资金需求,因此,可以用这个指标在美国各行业的取值作为其他国家相应行业的外部融资依存度指标(同时将美国从估计样本中剔除)。
图10反映了如果用各国各行业外部融资占比的实际数字作为调节变量将会产生的估计偏误。图中,圆圈内数字1和2为低外部融资依存行业,3和4为高外部融资依存行业,细实线反映这两类行业在低金融发展水平国家和高金融发展水平国家间的增长差异,细虚线表示用低外部融资依存行业的实际差异所推测的高外部融资依存行业(假若没有从金融发展中受益)的反事实差异,因此,细实线和细虚线之间的距离就是金融影响增长的真实因果效应。如果用各国各行业的实际外部融资占比作为分组依据,行业3本来是高外部融资依存行业,但由于在低金融发展水平国家中实际外部融资占比较低,被错误地归为低外部融资依存行业,此时低外部融资依存行业在两类国家间的增长差异就体现为粗实线,由此推测的高外部融资依存行业的反事实差异体现为粗虚线,这样就会高估金融对增长的因果效应。
朱家祥和张文睿(2021)认为,交互项在起始模型里就该出现,交互项系数统计显著是研究调节效应的起点,而不是终点。他们给出的理由是,如果先估计不包含交互项的基准模型,然后再引入调节变量和交互项,若交互项系数显著,就意味着在估计基准模型时,调节变量和交互项被留在了扰动项中,因此基准模型的估计是不一致的。如果调节变量本身是高度内生的,那么这个问题确实存在。但如果调节变量是外生的,在基准回归中遗漏它及其与处理变量的交互项,就不会造成估计偏误。此时,基准回归中处理变量的系数估计应该接近于交互项模型中的平均观测个体的边际效应。
6.4.作为因果识别第二种基本策略的调节效应分析
在因果推断研究中,研究者处理内生性的主要思路往往聚焦在寻找合适的控制变量和控制策略,即找到导致内生性的原因,然后正式地刻画、测量和控制它。调节效应分析则提供了另一种处理内生性的思路,即尝试挖掘因果模型的新的可验证含义——处理变量和结果变量之间更丰富的相关性,如果这种相关性是其他因果“故事”所不能解释的,那么即便此时内生性仍然存在,但至少证明研究者所感兴趣的因果关系是存在的,否则这种更丰富的相关性不会出现。因此,调节效应分析应该被看作因果识别的第二种基本策略的重要实现手段。
因果推断理论先行(Theory Driven)的含义。也许可以先通过大量的尝试去发现稳定的相关关系,然后再试图给出理论解释,但这样的研究路径成功的机率不高,因为调节变量往往不会“躺”在数据集里等着研究者去发现,而需要研究者根据理论去构造。
七、国内应用现状与建议
7.1.中介效应分析的应用现状
在经济学因果推断经验研究中使用中介效应检验是国内学术界一种独特的现象。其流行主要受到温忠麟等(2004)、温忠麟等(2005)、温忠麟和叶宝娟(2014)等研究的影响。不过,温忠麟等(2004)(9)明确指出,在中介效应检验中,因变量和自变量之间的关系不一定是因果关系,而可能只是相关关系。温忠麟和叶宝娟(2014)进一步说明,中介效应检验不能验证因果关系,中介效应模型中的因果关系都要有理有据,或者有某种学科理论支持,或者有文献做铺垫,或者有经验常识作为佐证。总之,因果链中的每一个关系都要在提出假设和建模之前得到支持。但是国内经济学经验研究中进行中介效应检验时,多数似乎并没有听从这样的忠告。
7.2.中介效应分析的操作建议
关于中介效应分析,本文提出以下操作建议:
- 一是停止使用中介效应的逐步法检验,更不需要估计间接效应的大小并检验其统计显著性。把研究的重心重新聚焦到如何提高D对Y的因果关系的识别可信度。
- 二是根据经济学理论,提出一个或几个能够反映D对Y的作用渠道的中介变量M,M对Y的影响应该是直接而显然的,采用和第一条中同样的方法识别D对M的因果关系。
- 三是尽量避免提出与Y的因果关系不明显、因果链条过长或者明显受到Y反向影响的中介变量。有时,考察Y对M的回归也许是有益的,但要记住这只是一条相关性证据。
- 四是在绝大多数时候,做好前两条就足够了。如果要考察D对Y的效应在多大程度上可以被M这一作用渠道所捕捉,可以尝试在Y对D的回归中控制M,但必须先弄清楚这种考察对理解D对Y的因果关系有何帮助,并审慎解释回归结果。如有可能,尽量论证这一结果受到M的潜在内生性的影响是有限的。当存在多个M时,尤其要谨慎采用这种做法。
7.3.调节效应分析的应用现状
调节效应分析的使用更为普遍,除了少数例外,调节效应分析几乎成为国内经济学经验研究的必要步骤。但是从对国内经济学领域一些权威期刊最近几年所刊发论文的阅读中可以看到,这一研究实践尚存在如下主要问题:
- ①大多数文章没有把调节效应分析,或者说机制检验,提高到强化因果关系论证的高度。没有明确分析当前的研究方法仍受制于何种因果识别的威胁,而特定的机制检验在何种意义上能够缓解这一威胁。
- ②很多文章同时包含机制检验和异质性分析两部分,此时异质性分析的目的并不明确,很多时候只是为做而做,而没有进一步分析这种异质性出现的原因,即使稍有着墨,也往往是用现象解释现象,更谈不上讨论这种异质性如何服务于因果识别。甚至会出现两组异质性结果的理论解释互相冲突,无法自洽。
- ③有一些调节变量存在明显的内生性问题,受到处理变量或结果变量的直接影响,此时不但难以解释调节效应,而且存在估计偏误。
- ④个别文章使用同一个变量既作为调节变量又作为中介变量,尽管理论上存在这种可能性,但实际上很难分析清楚。理由很简单,如果一个变量是调节变量,那么分析调节效应时,这个变量本身理应控制在回归中;但如果这个变量同时又是中介变量,那么这种控制又会造成估计偏误。这往往反映出研究者混淆了作用渠道和作用机制之间的差异。
- ⑤为数不少的文章采用分组回归的方式报告异质性分析结果,但并没有对异质性进行正式的统计检验。
7.4.调节效应分析的操作建议
关于调节效应分析,本文提出如下操作建议:
- 一是将因果关系的作用机制检验视为因果识别的重要手段,尽量正式地讨论其如何有助于强化对文章主题(从D到Y的因果关系)的论证。
- 二是在研究设计部分详细阐述调节变量与调节效应的理论依据,而不是等到报告实证结果时再附会解释。
- 三是直观地展示调节效应,讨论其数值大小在经济上的重要性。
- 四是如果以处理效应的异质性本身作为研究目的,明确说明这种异质性的经济意义——读者为什么要关心这种异质性。
- 五是提高统计规范性,对异质性进行正式的统计检验。
- 六是将对作用机制和作用渠道的讨论进行严格区分,不宜安排在同一章节下,明确其不同的写作目的。
八、结语
本文是试图提升国内经济学因果推断经验研究规范性的一项努力。中介效应分析和调节效应分析作为社会科学工作者积极探索和深入理解因果关系的重要研究手段,本就是应这种规范性要求而生的,体现了科研工作者试图拨开数据“迷雾”、洞察真实世界的不懈追求。但是由于社会科学的因果问题特别复杂,研究实践的初衷和最终呈现效果之间难免存在一定的错位。中介效应分析的问题在于方法使用过度,研究者需要充分认识中介效应逐步法检验的局限性,小心从事因果识别;调节效应分析的问题在于方法发挥不足,研究者需要充分认识调节效应分析对于夯实因果识别的重要意义,大胆进行因果论证。如此则经验研究成果的科学性和可信性将进一步提高,其学术影响力和政策参考价值也将进一步提高。
本文的一般性意义在于,藉由对具体方法的讨论,重申定量社会科学因果推断的方法论立场。在因果推断中,较为艰巨的任务不在于统计方法的运用,而在于如何调用社会科学理论资源构建理解世界的方式。来自社会心理学家Judd 和Kenny的告诫虽属老生常谈,但对向来标榜因果推断严谨性的经济学经验研究者来说,仍然值得一再强调:统计学是在因果模型正确的前提下开展工作,但因果模型很可能是错的,而统计学无法告诉我们错在哪里(Judd and Kenny, 2010)。