论文解读11——FOCUS: Flexible Optimizable Counterfactual Explanations for Tree Ensembles

在这里插入图片描述

1、文章贡献

提出了一种基于树集成的反事实解释方法,将寻找反事实的问题转化为基于梯度的优化问题,并扩展了以前只能用于可微分模型的技术,提供了用于优化的基于树模型的可微近似框架,产生有效的反事实解释。

2、反事实解释

以银行贷款为例,若机器学习模型输出的预测结果是用户被拒绝贷款,则一个可能的反事实解释为:“如果他的收入高于某个阈值,就可以获得贷款。” 我们的目标是通过输入的最小变化来改变结果,寻找实例的最佳反事实解释。

3、问题定义

关于实例x和模型f的反事实解释是改变了模型f的预测下x的最下扰动。

  • 若f是一个概率分类器,f(y|x)表示x属于类y的概率,则最有可能的预测表示为
    y=argmax f(y|x),扰动项x拔作为x的反事实实例,y’为反事实预测,则有:
    在这里插入图片描述
    除了改变预测,x与反事实之间的距离也应该最小化,最优反事实实例定义为:
    在这里插入图片描述
    其中d(.)是可微的距离函数,则相应的最优反事实解释为:
    在这里插入图片描述
  • Wachter et al.(2018)提到将此任务转化为优化问题,通过梯度下降找到反事实实例,利用预测损失来改变原始预测f,距离损失来最小化距离d,于是整体损失是这两个损失的线性组合:
    在这里插入图片描述
    假设最优反事实实例可以通过最小化整体损失得到:
    在这里插入图片描述
    然而该方法的缺陷是假设模型f是可微分的,这对于一些不可微分的模型包括树模型来说并不适用。

4、损失函数定义

  • 假设在一个分类任务中使用合页损失:
    如果预测值没有改变,那么预测损失会一直有,除非预测值改变了,则这项示性函数值为0,从而预测损失为0。
    在这里插入图片描述
  • 给定一个可微的距离函数d,通过选择距离函数来明确最小化的概念,其中距离函数定义为:
    在这里插入图片描述
  • 基于Wachter et al.(2018)的缺陷,文中将不可微分模型的可微近似加入到基于梯度的优化框架中,从原始模型得到近似模型。近似预测损失定义为:
    在这里插入图片描述
    在该模型中既考虑了原始模型,又考虑了近似模型,通过惩罚预测结果没有改变的实例来鼓励扰动具有和原始实例不一样的预测。
  • 完全损失的近似定义为:
    在这里插入图片描述
    假设两者是近似的:
    在这里插入图片描述
    于是最小化近似完全损失可以找到一个最优反事实实例:
    在这里插入图片描述

5、基于树模型

  • 构造基于原始集成树模型的可微近似,集成树基于决策树,单个决策树使用二叉树结构根据x的特征做出预测。
    如果节点j的父节点Pj被激活且特征X位于阈值θ的正确一侧,则节点j被激活。
    关于节点j是否被激活的指示函数定义为:
    (其中划分左右节点特征用的是示性函数,满足括号条件的特征会被完全划分到某一节点)
    在这里插入图片描述
  • 其中每个叶节点都有自己的预测分布,整个树的预测由被激活的叶节点给出,对其求和:
    在这里插入图片描述
  • 则集成M颗树的最优预测为:
    在这里插入图片描述

6、基于树模型的近似

  • 公式中不可微的部分包括指示函数 t(x) 和求最大值的 f(y|x),两者均可被可微函数近似。
    首先引入sigmoid激活函数对t(x)近似:
    (sigmoid函数代替原来的示性函数,取值在0,1之间,左右节点划分条件没有那么严,而且是可微的)
    在这里插入图片描述
  • 引入树的近似,此时它的激活不再是确定的,而是取决于特征值x和阈值θ之间的距离:
    在这里插入图片描述
  • 最后将f(y|x)的最大化操作通过带有温度参数τ的softmax函数呈现:
    在这里插入图片描述
  • 模型f的近似取决于σ和τ的选择,随着σ增大,近似模型会与原始模型更加接近;随着τ增大,softmax分布会趋向完全单峰。当两者趋于无穷时:
    在这里插入图片描述

7、实验

  • Baseline
    1、Feature Tweaking:特征调整识别与原始预测不匹配的叶节点为其生成扰动实例,通过微调特征来激活节点。
    在这里插入图片描述
    2、DACE:通过马氏距离和局部异常因子的线性组合生成反事实实例。其中局部异常因子qk衡量在k个最近邻居中是异常点的程度,通过减少参数λ可以生成更多的反事实实例。
    在这里插入图片描述
  • Datasets
    (四个二分类数据)
    Wine Quality dataset
    HELOC set
    COMPAS dataset
    Shopping dataset
  • Model
    Decision Trees (DTs)
    Random Forests (RFs)
    Adaptive Boosting (AB) with DTs
  • Evaluation Metrics
    平均距离dmean
    平均相对距离dRmean
    欧氏距离、余弦距离、曼哈顿距离、马氏距离
  • FOCUS vs FT
    从平均距离来看,在4个数据集x3个基于树的modelx3个距离函数组成的36个设置中,FOCUS有20个设置要显著优于FT,且当距离函数是欧氏距离和余弦距离时FOCUS表现更好;当模型选RF和AB时,FOCUS要优于FT。
    在这里插入图片描述
  • FOCUS vs DACE
    不管局部异常因子的参数λ如何调节,DACE只能生成一小部分的反事实实例。
    在能生成反事实的实例上比较发现,FOCSU在6个设置中有5个显著优于DACE。
    在这里插入图片描述
    实验小结
    FOCUS不受模型大小的限制,且可以为测试集中的所有实例都生成反事实解释,因此更加可靠。

8、距离函数的变化

进一步通过一个信用贷款的例子来研究反事实解释在不同距离函数中的变化。
研究任务:预测用户是否会拖欠贷款
当预测为违约的用户会被拒绝贷款,我们希望了解的是怎样改变用户的资料可以让他们获得批准。

  • 曼哈顿距离(Manhattan)
    基本上只对两个特征出现扰动,但结果变化很大。
    欧氏距离(Euclidean)
    相比曼哈顿距离,它改变的特征更多,但结果变化较小。
    余弦距离(Cosine)
    几乎对所有特征进行了调整,且保留了特征之间的相关性。
    马氏距离(Mahalanobis)
    几乎对所有特征进行了调整,不仅保留了特征之间的相关性,还考虑了数据的分布。
    在这里插入图片描述
    根据实际问题灵活选择距离函数可产生不同的可解释性。
Counterfactual Explanations without Opening the Black Box: Automated Decisions and the GDPR》是一篇关于反事实解释的研究论文,主要方法是基于因果推理和机器学习模型解释方法。 该论文主要研究的是自动化决策系统,如何在不打开模型黑匣子的情况下,提供可解释的结果和反事实解释。在实际应用中,这些解释对于决策的合理性和公正性至关重要。为此,该论文提出了一种基于因果推理的解释方法,用于生成反事实解释。 具体来说,该方法首先通过机器学习模型对数据进行训练,得到一个具有高准确度的模型。然后,使用因果推理的方法来解释模型的预测结果。该方法会生成一系列的反事实假设,用于解释为什么模型做出了这个决策。这些假设可以在不打开模型黑匣子的情况下,提供模型内部运作原理的可解释性。 除此之外,该论文还提出了一个基于欧洲通用数据保护条例(GDPR)的框架,用于审查自动化决策系统的公正性和透明性。该框架要求自动化决策系统应该具有可解释性,并提供反事实解释,以便用户了解为什么做出了某个决策。 总之,《Counterfactual Explanations without Opening the Black Box: Automated Decisions and the GDPR》的主要方法是基于因果推理和机器学习模型解释方法,该方法可以在不打开模型黑匣子的情况下,提供可解释的结果和反事实解释,从而提高模型的公正性和透明性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值