【机器学习】如何计算解释模型的SHAP值


SHAP值是一种用于解释机器学习模型的工具,可以帮助我们理解每个特征值对模型预测结果的贡献程度。具体地,我们应该如何计算单个特征的SHAP值呢?以下介绍一种近似计算方法。

近似算法

单个特征值的shap值近似估计算法:

  • 输出:第j个特征值的shap值
  • 输入:迭代次数 M M M、待计算的实例 x x x、特征索引 j j j、数据矩阵 X X X、和机器学习模型 f f f
    • 对于所有 m = 1 , ⋯   , M m=1,\cdots,M m=1,,M:
      • 从数据矩阵 X X X 中抽取随机实例 z z z
      • 选择特征值的随机排列
        • 排序实例 x x x: x o = ( x ( 1 ) , ⋯   , x ( j ) , ⋯   , x ( p ) ) x_o=(x_{(1)},\cdots,x_{(j)},\cdots,x_{(p)}) xo=(x(1),,x(j),,x(p))
        • 排序实例 z z z: z o = ( z ( 1 ) , ⋯   , z ( j ) , ⋯   , z ( p ) ) z_o=(z_{(1)},\cdots,z_{(j)},\cdots,z_{(p)}) zo=(z(1),,z(j),,z(p))
      • 构造两个新实例
        • 包含特征 j j j        x + j = ( x ( 1 ) , ⋯   , x ( j − 1 ) , x ( j ) , z ( j + 1 ) , ⋯   , z ( p ) ) \;\;\;x_{+j}=(x_{(1)},\cdots,x_{(j-1)},x_{(j)},z_{(j+1)},\cdots,z_{(p)}) x+j=(x(1),,x(j1),x(j),z(j+1),,z(p))
        • 不包含特征 j j j x − j = ( x ( 1 ) , ⋯   , x ( j − 1 ) , z ( j ) , z ( j + 1 ) , ⋯   , z ( p ) ) x_{-j}=(x_{(1)},\cdots,x_{(j-1)},z_{(j)},z_{(j+1)},\cdots,z_{(p)}) xj=(x(1),,x(j1),z(j),z(j+1),,z(p))
      • 计算边际贡献: ϕ j m = f ^ ( x + j ) − f ^ ( x − j ) \phi_j^m=\hat{f}(x_{+j}) - \hat{f}(x_{-j}) ϕjm=f^(x+j)f^(xj)
    • 计算特征值 x j x_j xj的shap值: ϕ j ( x ) = 1 M ∑ 1 = m M ϕ j m \phi_j(x)=\frac{1}{M}\sum_{1=m}^{M}\phi_j^m ϕj(x)=M11=mMϕjm

计算步骤

此算法是用于计算单个特征值的SHAP值。下面是公式的计算步骤:

  1. 首先,设定迭代次数 M M M,这是一个输入参数,决定了我们要进行多少次的随机采样。
  2. 接着,从数据矩阵X中随机选择一个实例 z z z
  3. 然后,对特征值进行随机排列,产生两个新的实例: x x x z z z
  4. 在这两个新实例中,我们构造出两个更具体的实例:包含特征 j j j x + j x_{+j} x+j 和不包含特征 j j j x − j x_{-j} xj。在 x + j x_{+j} x+j 中,特征j的值取自实例 x x x,而在 x − j x_{-j} xj 中,特征 j j j 的值取自实例 z z z
  5. 计算这两个实例的预测值之差,这即是特征j的边际贡献。
  6. 重复上述步骤M次,然后将所有的边际贡献求平均,得到特征 j j j 的SHAP值。

简而言之,此算法的目的是估计在随机排列特征的情况下,特征j的存在与否对模型预测结果的影响,从而评估特征 j j j 的重要性。

计算举例

假设我们有一个机器学习模型,该模型使用一组特征(例如年龄、性别、收入等)来预测一个人是否会购买某个产品。我们想知道“年龄”这个特征对预测结果的影响有多大,也就是我们想要计算“年龄”的SHAP值。

以下是计算步骤:

  1. 首先,我们设定一个迭代次数 M M M,例如100次。

  2. 然后,我们进行100次迭代,每次迭代都会做以下操作:

    • 从数据集中随机选择一个人(称为 z z z)。

    • 创建两个新的“虚拟”人。一个人的所有特征值都与我们要预测的那个人(称为 x x x)相同,但“年龄”特征的值与z相同。而另一个人的所有特征值都与z相同,但“年龄”特征的值与x相同。

    • 使用模型对这两个“虚拟”人进行预测,并计算预测结果的差异。这个差异就是“年龄”特征的边际贡献。

  3. 最后,将100次迭代中计算出的所有边际贡献进行平均,得到的就是“年龄”特征的SHAP值。

总的来说,这个算法就是在模拟一个实验:如果我们改变一个人的年龄(而其他特征保持不变),那么这将如何影响我们的预测结果。通过多次模拟这个实验并取平均,就可以得到一个对“年龄”特征的影响力的估计值,也就是SHAP值。

参考资料

TBD

  • 5
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
SHAP(SHapley Additive exPlanations)是一种基于 Shapley 的算法,用于解释机器学习模型的预测结果。SHAP 可以帮助我们了解每个特征对于模型预测的贡献程度,这对于模型的理解和调试非常有帮助。 在 XGBoost 模型中,我们可以使用 SHAP 来解释模型的预测结果。具体来说,可以使用 XGBRegressor 或 XGBClassifier 中的 shap.TreeExplainer 对象来计算特征的 SHAP 。该对象会解析 XGBoost 模型计算每个特征对于每个样本的 SHAP ,从而得出特征的重要性排名和每个样本的贡献度。 例如,我们可以使用以下代码计算 XGBoost 模型的特征重要性和一个样本的 SHAP : ``` python import xgboost import shap # 加载数据 X, y = shap.datasets.diabetes() # 训练 XGBoost 模型 model = xgboost.train({"learning_rate": 0.01}, xgboost.DMatrix(X, label=y), 100) # 创建 SHAP 解释器 explainer = shap.TreeExplainer(model) # 计算特征重要性 shap_values = explainer.shap_values(X) shap.summary_plot(shap_values, X) # 计算单个样本的 SHAP sample = X.iloc[[0]] shap_values = explainer.shap_values(sample) shap.force_plot(explainer.expected_value, shap_values, sample) ``` 在上面的代码中,我们首先加载了一个糖尿病数据集,然后使用 XGBoost 训练了一个模型。接着,我们创建了一个 shap.TreeExplainer 对象,并计算了特征的重要性。最后,我们使用 shap.force_plot 函数展示了第一个样本的 SHAP 。该图展示了每个特征对于预测结果的贡献程度,以及预测结果的基准和实际之间的差异。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值