论文笔记：Generalized Random Forests

#Super Pig

已于 2023-03-02 16:10:48 修改

阅读量2.7k

点赞数 7

分类专栏：因果推断文章标签：随机森林算法机器学习

于 2022-06-21 19:19:29 首次发布

本文链接：https://blog.csdn.net/zyl_wjl_1413/article/details/125380173

版权

因果推断专栏收录该内容

2 篇文章

订阅专栏

本文介绍了广义随机森林（GRF）的概念，它是一种对随机森林的扩展，旨在解决更广泛的估计问题。GRF的核心是通过优化问题（1）和（2）来寻找估计量，使其满足期望损失为零的条件。在回归问题中，GRF是随机森林的一个特例，通过证明GRF的预测值与随机森林预测值之间的关系。GRF在节点分裂时采用近似方法，如gradient tree algorithm，以降低计算复杂性。此外，GRF被应用于因果效应的评估，特别是在部分线性模型中，通过构造得分函数来估计条件平均治疗效应（CATE）。最后，GRF与因果森林的区别在于分裂准则和处理效应的计算方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文暂且忽略渐近线证明部分，关注于GRF的prediction和split方法
ref：

知乎博客：https://zhuanlan.zhihu.com/p/448524822
S. Athey, J. Tibshirani, and S. Wager, “Generalized random forests,” Ann. Statist., vol. 47, no. 2, Apr. 2019, doi: 10.1214/18-AOS1709.

Motivation

本文旨在找到一种general的forest-based的估计方法，是对random forest的泛化扩展。这也是该工作的最大贡献。具体而言，该工作所提出的General Object是：
$\mathbb{E}[\Psi_{\theta(x),\nu(x)}(O_i)|X_i=x]=0 \tag{1}$
其中， $\Psi(\cdot)$ 是scoring function，可以理解为loss function或者是优化目标， $\theta(x)$ 是我们期望估计的量， $\nu(x)$ 是可选的nuisance parameter， $O_i$ 是和 $\theta(x)$ 有关的量。目的就是希望能够造一个森林使得Eq(1)成立。

为了实现上述目标（Eq(1)），我们需要解决如下优化问题：
$(\hat\theta(x),\hat\nu(x))=\arg\min_{\theta,\nu} \|\sum_{i=1}^{n}\alpha_i(x)\cdot\Psi_{\theta,\nu}(O_i)\|_2 \tag{2}$
而该优化问题的最优解 $\hat\theta(x)$ 就是我们的估计结果；

至于 $\alpha_i(x)$ ，它表示训练样本 $i$ 与测试样本（由 $x$ 表示）的相似度，起到加权的作用，其具体计算方法如下：
$\alpha_i(x)=\frac{1}{B}\cdot\sum_{b=1}^B\alpha_{b_i}(x) \tag{3}$
$\alpha_{b_i}(x)=\frac{1(\{X_i\in L_b(x)\})}{|L_b(x)|} \tag{4}$
其中， $B$ 表示树的个数， $b$ 是代表第 $b$ 棵树， $L_b(x)$ 表示与测试样本 $x$ 落在第 $b$ 棵树同一叶子上的训练样本集合。所以， $\alpha_{b_i}(x)$ 就表示在第 $b$ 棵树中第 $i$ 个训练样本与测试样本 $x$ 落在同一个叶子节点的频率【该频率反映相似度】。注意， $\sum_{i=1}^n\alpha_i(x)=1$ ！

总结一下，Eq(1)和Eq(2)其实是等价的，在森林构建好之后可以根据Eq(1)或(2)进行预测评估，这俩式子就是GRF的核心，许多统计问题（如，最小二乘、最大似然、分位数回归等）都可以看作是Eq(1)的特例。

Case of Regression
以回归问题为例，证明random forest是GRF的一个特例：
对于回归问题而言，我们关心的估计量 $\mu(x)=\mathbb{E}[Y_i|X_i =x]$ （这里 $\mu(x)$ 就是 $\theta(x)$ )，对应的scoring function就是 $\Psi_{\mu(x)}(O_i)=Y_i-\mu(x)$ 。
同时，我们知道random forest在森林构建好之后，给定测试样本 $x$ ，其预测值是 $x$ 所在叶子节点的训练样本集合的Y均值，形式化表示如下：
$\hat\mu(x)=\frac{1}{B}\cdot\sum_{b=1}^B\hat\mu_b(x), \ \hat\mu_b(x)=\frac{\sum_{\{i:X_i\in L_b(x)\}}Y_i}{|L_b(x)|} \tag{5}$
现在，我们只需要证明当scoring function为 $\Psi_{\mu(x)}(O_i)=Y_i-\mu(x)$ 时，Eq(5)成立是Eq(1)成立的充要条件。证明如下：
Eq(1)成立等价于Eq(6)成立：
$\sum_{i=1}^n\alpha_i(x)\cdot (Y_i-\hat\mu(x))=0 \tag{6}$
又由于 $\sum_{i=1}^n\alpha_i(x)=1$ 成立，所以Eq(6)可以转化成Eq(7)：
$\begin{aligned} \hat\mu(x) &=\sum_{i=1}^n\alpha_i(x)\cdot Y_i \\ &=\sum_{i=1}^n \frac{1}{B}\cdot\sum_{b=1}^B\alpha_{b_i}(x) \cdot Y_i \\ &=\frac{1}{B}\cdot\sum_{b=1}^B\cdot\sum_{i=1}^n\frac{1(\{X_i\in L_b(x)\})}{|L_b(x)|} \cdot Y_i \\ &=\frac{1}{B}\cdot\sum_{b=1}^B \hat\mu_b(x) \end{aligned} \tag{7}$

由此可见，当Eq(1)成立时，能推出Eq(6)成立，因此，random forest是GRF的一个特例。

split criterion

最原始的思想是，最小化子节点评估值与真实值之间的误差，也就是最小化 $err(C_1,C_2)$ ：
$err(C_1,C_2)=\sum_{j=1}^2\mathbb{P}[X\in C_j|X\in P]\cdot\mathbb{E}[(\hat\theta_{C_j}(\mathcal{J})-\theta(x))^2|X\in C_j] \tag{8}$
但是，由于真实值 $\theta(x)$ 并不可知，因此，进过一番推导，我们将最小化 $err(C_1,C_2)$ 转化成最大化 $Delta(C_1,C_2)$ ：
$\Delta(C_1,C_2)=\frac{n_{c_1}\cdot n_{c_2}}{n_p^2}\cdot(\hat\theta_{C_1}(\mathcal{J})-\hat\theta_{C_2}(\mathcal{J}))^2 \tag{9}$
经过转化，可以发现，最大化Eq(7)的含义就是最大化子节点之间的异质性。

至此，我们知道了节点的分裂标准，但在实际操作中，由于 $\hat\theta_{C_j}(\mathcal{J})$ 的计算开销较大，因此，作者提出了基于gradient的近似求解方法：

gradient tree algorithm

首先，PROPOSITION1指出， $\hat\theta_{C}$ 有如下近似解 $\tilde\theta_{C}$ ：
$\tilde\theta_{C}=\hat \theta_p-\frac{1}{|\{i:X_i\in C\}|}\cdot\sum_{\{i:X_i\in C\}}\xi^T\cdot A_p^{-1}\Psi_{\hat\theta_p,\hat\nu_p}(O_i) \tag{10}$
其中， $\hat \theta_p$ 表示父节点 $P$ 上 $\theta$ 的估计值，可以由Eq(1)orEq(2)求得；至于 $\xi$ ，论文中说它是从 $(\theta,\nu)$ 向量中筛选出 $\theta$ -coordinate的向量，但我在其他论文中看到大家都省略了这个玩意儿；而 $A_p$ 的含义是 $\Psi_{\hat\theta_p,\hat\nu_p}(O_i)$ 的期望的梯度，计算公式如下：
$A_p=\nabla\mathbb{E}[\Psi_{\hat\theta_p,\hat\nu_p}(O_i)|X_i\in P]=\frac{1}{|\{i:X_i\in C\}|}\cdot\sum_{\{i:X_i\in P\}}\nabla\Psi_{\hat\theta_p,\hat\nu_p}(O_i) \tag{11}$
但我不太理解这里的导数是对谁求的。

当 $\hat\theta_{C}$ 有近似解 $\tilde\theta_{C}$ 之后，可以推出 $\Delta(C_1,C_2)$ 也有相应的近似解 $\tilde\Delta(C_1,C_2)$ ：【这一步的推导暂时省略】
$\tilde\Delta(C_1,C_2)=\sum_{j=1}^2\frac{1}{|\{i:X_i\in C_j\}|}\cdot(\sum_{\{i:X_i\in C_j\}}\rho_i)^2 \tag{12}$
其中， $\rho_i=-\xi^T\cdot A_p^{-1}\cdot\Psi_{\hat\theta_p,\hat\nu_p}(O_i)$ ，表示第i个样本在计算 $\hat\theta_p$ 时的影响。

至此，我们就可以将节点分裂总结为以下两个步骤：
1. labeling step
这一步，首先需要计算 $\hat\theta_p$ 和 $A_p$ ，进而计算 $\rho_i$ ；注意，每次分裂时，只需要计算一个 $\rho_i$ 【因为父节点已经确定了】
2. regreession step
寻找子节点，使得 $\tilde\Delta(C_1,C_2)$ 最大。这一步可通过标准CART回归分裂实现。

GRF for CATE

接着，我们看一下GRF是如何应用于CATE的评估的。
在这一应用中，作者仍以Partially Linear model为基础来构造 $\Psi(\cdot)$ ，所谓的Partially Linear Model是指数据满足以下结构：
$Y=\theta(x)\cdot T+g(x)+\epsilon, \ T=f(x)+\eta \tag{13}$
所谓的”部分线性“主要体现在Y的结构上。
放在CATE评估问题中， $\theta(x)$ 就表示 $x$ 条件下的处理效应，形式化表述为 $\theta(x)=\mathbb{E}[Y(T=1)-Y(T=0)|X=x]$ 。
基于Partially Linear Model，作者构造的scoring function为 $\Psi_{\theta(x),\nu(x)}(O_i)=Y_i-\theta(x)\cdot T_i-\nu(x)$ ，可以理解为这个scoring function的目的是寻求一个 $(\hat\theta(x),\hat\nu(x))$ 使得 $Y_i$ 与 $\theta(x)\cdot T_i+\nu(x)$ 尽可能接近【本质就是拟合问题】。

在这个设定下，各值求解如下：
$\hat\theta(x)=\xi^T\cdot\frac{Cov(T_i,Y_i|Xi=x)}{Var(T_i|X_i=x)} \tag{14}$
$A_p=\frac{1}{|\{i:X_i\in P\}|}\cdot\sum_{\{i:X_i\in C_j\}}(T_i-\bar T_p)^{\bigotimes 2} \tag{15}$
$\rho_i=\xi^T\cdot A_p^{-1}\cdot (Y_i-\bar Y_p-(T_i-\bar T_p)\cdot \hat\theta_p) \tag{16}$
关于这些值的推导，目前只理解了Eq(14)的来源：
考虑 $Y=\theta(x)\cdot T+g(x)$ ，最优 $\theta(x)$ 的求解可以看作是求解一元一次方程 $y = a x + b$ 的斜率，而这一斜率可以由方差及协方差表示【参考资料】
需要注意的是，这里的均值、方差、协方差都是加权计算的，而权重就是 $\alpha_i$ 。

CausalForestDML

顾名思义，CausalForestDML是融合了CausalForest和DML。DML在估计CATE时的核心思想是基于如下等式：
$Y-\mathbb{E}[Y|X]=\theta(x)\cdot (T-\mathbb{E}[T|X]) \ 等价于 \ \tilde Y=\theta(x)\cdot \tilde T \tag{17}$
也就是，将CATE的评估问题，转化成用T的残差去拟合Y的残差，而这个回归系数就是CATE。【计算残差的过程，其实就是正交化的过程】
基于DML的思想，CausalForestDML构造了如下的scoring function： $\Psi_{\theta(x),\nu(x)}(O_i)=Y_i-\mathbb{E}[Y_i|X]-\theta(x)\cdot (T_i-\mathbb{E}[T_i|X])-\nu(x)$ 。
相应的最优 $\theta(x)$ 就变成了 $\hat\theta(x)=\xi^T\cdot\frac{Cov(Y_i-\mathbb{E}[Y_i|X_i],T_i-\mathbb{E}[T_i|X_i]|Xi=x)}{Var(T_i-\mathbb{E}[Y_i|X_i]|X_i=x)}$ 。