论文笔记:Extracting spatial effects from machine learning model using local interpretation method

(使用局部解释方法从机器学习模型中提取空间效应:SHAP 和 XGBoost 的示例)

话题点:局部解释的机器学习模型、xgboost、SLM、MGWR、SHAP

研究内容:比较了shap解释的XGBoost与空间滞后模型(SLM)和多尺度地理加权回归(MGWR),说明局部解释的机器学习模型是空间统计模型的良好替代方案,并且在复杂的空间和非空间效应(例如非线性,相互作用)共存且未知时表现更好。

1.引言

随着机器学习与人工智能、空间大数据、地理信息科学和地理空间计算平台(如Wang, 2010中的CyberGIS)的融合,GeoAI(地理空间人工智能)领域应运而生。GeoAI成功应用的例子包括土地覆盖分类(Scott, England, Starms, Marcum, & Davis, 2017;Tong et ., 2020),地质特征检测(Hsu, Li, & Wang, 2021;Huang, Dong, & Clee, 2017),疾病制图(Brownstein, Freifeld, Reis, & Mandl, 2008;Bullock, Luccioni, Pham, Lam, & Luengo-Oroz, 2020),交通预测(Boukerche & Wang, 2020;Zhang & Haghani, 2015),犯罪分析(Wang, Rudin, Wagner, & Sevieri, 2013),社会感知(Zhang, Wu, Zhu, & Liu, 2019)等。尽管机器学习在地理和其他领域被广泛使用,但它通常被认为是一个黑盒模型,这意味着导致模型输出的过程并没有被人类完全理解。

因此,出现了LIME(局部可解释模型不可知解释)和SHAP (SHapley加性解释)等方法,它们提供了比全局解释技术更详细和个性化的解释和归因(Ribeiro, Singh, & Guestrin, 2016;Lundberg and Lee, 2017)。研究表明,LIME和SHAP是有用的工具,可以添加到机器学习工作流程中,为事故检测模型(Parsa, Movahedi, Taghipour, Derrible, & mohammaddian, 2020)、空气污染(Just等人,2020)、交通能源消耗、水文气候过程(Chakraborty, Bas a glu, & Winterle, 2021)和农业用地(Viana, Santos, Freire, Abrantes, & Rocha, 2021)提供额外的解释。

本文重点研究了如何从机器学习模型中提取空间效应,以及提取的空间效应是否与经典空间统计模型估计的空间效应一致。据研究所述,这也是第一个在参数水平上比较机器学习模型和空间统计模型的研究,这是通过局部解释方法实现的。

2.可解释的机器学习和SHAP

可解释机器学习的目标是理解模型如何进行预测,并回答诸如输入和输出之间的关系以及在驱动预测时最重要的特征等问题。特定于模型的方法和不可知模型的方法是可解释机器学习算法的两大类。对于神经网络等更复杂的模型,已经开发了特定于模型的可视化来理解,例如,通过研究神经元和层激活,图像的哪一部分有助于最终的分类结果。

最近,出现了新的方法来提供局部解释,在个体观测水平上给出详细的特征重要性和归因。例如,LIME由Ribeiro等人(2016)开发,其背后的逻辑是LIME认为模型在全局层面上是复杂的,但在局部层面上是线性的。这里的“局部”指的是特征空间中的接近性,而不是地理空间中的接近性(地理坐标可能是特征之一,但它们很少是模型中的唯一特征)。LIME在数据点附近创建稍微扰动的样本,随后将其输入黑箱机器学习模型以生成预测。然后,LIME使用简单的可解释模型,如线性回归、LASSO或决策树,来计算可解释的参数进行解释。LIME具有与模型无关和局部化的优点,它也可以应用于表格、文本和图像数据。应用程序已经在现实世界中证明了它们的成功(例如Amiri, Mottahedi, Lee, & Hoque, 2021;Nanayakkara et al., 2018;Parmar, Das, & Dave, 2021)。然而,LIME也有一些缺点,例如不同的扰动数据的方法,如何定义局部邻域,以及应用哪种解释模型,都会对解释产生影响(Lundberg & Lee, 2017;Molnar, 2020)。此外,LIME只有在简单的可解释模型与黑盒预测非常接近的情况下才是可靠的,但情况并非总是如此。

另一种局部解释方法是从博弈论中的Shapley值(Shapley, 1953)的概念扩展而来的,其目的是当参与者共同达到一定的结果时,公平地分配参与者的贡献。Shapley值可用于机器学习,以量化模型中每个特征的贡献,这些特征共同提供预测。模型中特征Xj的Shapley值为:

特征的Shapley值是其对具有不同特征组合的所有可能模型的平均模型预测的边际贡献。Shapley值具有许多有用的属性,如效率、对称性、哑值和可加性。

Shapley值广泛采用的主要障碍是计算。由Lundberg和Lee(2017)创建的SHAP是估计Shapley值的一种方法。SHAP的主要贡献是生成局部可加性特征属性,如式所述:

3.SHAP-解释的机器学习和空间统计模型的比较

本节的主要目的是确定机器学习模型是否可以从地理坐标中充分捕获空间效应,以及是否可以使用SHAP提取这些空间效应以进行解释和可视化。在本文中,我们使用XGBoost (eXtreme Gradient Boosting)作为机器学习模型的示例,这是监督分类和回归任务中最广泛采用的选项之一。XGBoost是一种梯度增强方法,它使用梯度下降优化算法顺序集成决策树以最小化模型误差(Chen & Guestrin, 2016)。此外,XGBoost与SHAP集成良好,可以通过Tree SHAP算法有效地估计SHAP值(Lundberg et al., 2018)。

3.1空间自相关模型与SLM的比较

空间滞后模型(SLM):

其中y为因变量,X为自变量(即特征)矩阵,β为系数,ε为误差项。包含空间滞后项ρWy将SLM与普通最小二乘(OLS)区分开来,其中N × N形状的W (N为观测数)是反映数据点之间空间相互作用的空间权重矩阵。W矩阵的规范可以基于多边形数据的几何连续性或点数据的最近邻,并且通常是行标准化的。ρ是测量空间自相关强度的系数。

从U(−1.5,1.5)的均匀分布中随机抽取两个特征X1和X2,并映射到50 × 50的网格上,共有2500个观测值。设β1和β2分别为2和1。滞后系数ρ为0.8,表现出较强的空间自相关性。权重矩阵W使用50个最近邻来指定,以反映因变量中的中程空间自相关。

利用该合成数据集,分别拟合XGBoost模型和SLM模型。使用最优超参数,最终的XGBoost模型基于整个数据集的80%进行训练,并针对20%的独立测试数据进行测试,以避免过拟合。空间滞后项的SHAP值计算为X和Y坐标估计的SHAP值与因变量的平均值之和。目标是看看当出现空间滞后时,XGBoost模型是否能产生准确的估计

表1总结了SLM和XGBoost的总体模型精度。报告了R2值和残差均方根误差(RMSE)。根据表1,SLM和XGBoost模型的表现都令人满意,但SLM的R2值更好(0.811 vs. 0.783),残差RMSE更小(1.005 vs. 1.005),优于XGBoost。我们还计算了残差的Moran’s I值,SLM和XGBoost的Moran’s I值都很低,这表明大部分空间自相关没有留在残差中,而是被模型捕获了。空间滞后的均方根误差(RMSE)衡量的是复制空间滞后项的准确性,它是根据估计空间滞后与真实空间滞后的差值计算得到的。我们可以看到,SLM的性能优于XGBoost。对于参数项(Xβ), SLM的RMSE非常低,而XGBoost则不如SLM准确。

由于数据生成过程是基于SLM规范的,因此预期结果是SLM的性能优于XGBoost。然而,考虑到XGBoost是完全自动的,不需要假设模型规范和参数分布,这种精度水平是令人满意的。

遵循整体模型性能,本文仔细研究XGBoost估计的SHAP值。图1描绘了所有主要特征效果及其相互作用效果的SHAP估计值的汇总图,按其重要性从上到下排序。最大的影响归因于特征X1,其次是特征X2,约占估计SHAP值的一半。这是预料之中的,因为特征X1的影响,它被指定为系数β1 = 2,恰好是特征X2 (β2 = 1)的两倍。每个数据点的X坐标和Y坐标(特征X坐标和Y坐标)以及它们的相互作用效应(X坐标* Y坐标)也对模型预测有重要贡献。然而,对于坐标与特征X1和X2之间的相互作用,SHAP值没有发现明显的影响。

可以绘制参数分量和空间分量的部分依赖效应,如下图2所示。两个图描述了X1和X2与其估计的SHAP值之间的部分依赖关系。我们可以看到与数据生成过程中设计的真实斜率非常接近的正线性趋势。

两张图比较了提取的空间效应和真实的空间滞后。值得注意的是,反映空间相互作用和溢出效应的空间自回归过程不能在没有具体考虑的情况下由原始XGBoost模型建模。然而,我们可以比较滞后项的空间格局和从位置特征估计的SHAP值。从图2中可以看出,XGBoost很好地逼近了空间滞后项的一般空间格局,但预测的效果不如真实的空间滞后那么平滑。这是因为XGBoost作为一个基于树的模型,没有平滑的决策边界,使得估计更加参差不齐。

3.2和MGWR模拟空间异质性的比较

本节演示如何使用SHAP从机器学习模型中提取空间变化的效果,并与地理加权回归(GWR)进行比较。GWR已被广泛用于空间变化关系的建模。它通过借用地理上邻近的数据,并根据到当前焦点的距离对数据进行加权,来拟合每个数据点的局部加权回归。数据借用范围称为带宽,可通过赤池信息准则(AIC)等模型选择准则进行优化。

MGWR:

MGWR生成空间变化的过程,如图3所示:

值得注意的是,β1的空间模式只与数据的X坐标相关联,对Y坐标是不变的。而β2的值只与Y坐标有关。我们设计了连续的和离散的异构,看看模型是否可以处理这两种情况。然后根据特征及其系数和误差项构造因变量y,如式(6)所示:

XGBoost模型采用与上一实验相同的配置进行拟合,并计算相应的SHAP值。例如,如果与特征相关联的过程只是x坐标的函数(反映东西趋势),那么SHAP不应该识别该特征与y坐标之间的任何交互作用。

在表2中,对模型性能的总体评估表明,两个模型都很好地拟合了数据。从各部分分量的均方根误差来看,MGWR较好地模拟了β0和β1的连续空间异质性,而XGBoost较好地模拟了β2的离散空间异质性。这是一种预期的行为,因为MGWR中的数据借用方法平滑了估计的效果,而基于树的算法则倾向于离散边界。

对于SHAP结果,与图1的解释类似,图4显示了不同效应的重要性从高到低的排序。特征X1和X2的前两个效果具有相同的大小。这是因为,当对所有位置进行平均时,特征X1和X2具有相同的全局影响(E(β1) = E(β2) = 1.5)。在这些之后,模型的剩余贡献者来自坐标以及坐标与特征之间的交互。

我们可以看到,即使一般的空间模式被很好地复制,也有大量噪声的估计。这些位置的特征值接近于零,在直接计算比率时存在数值问题。解决这一问题的一种特殊方法是通过计算SHAP值与诸如系数等窗口内特征值之间的斜率来执行移动窗口平滑,如图5中的第三行所示。我们可以看到,图3中基于XGBoost的平滑系数更适合真实的数据生成过程。

3.3复杂效应共存时的模型比较

 从前面两节可以看出与SLM和MGWR模型相比,XGBoost模型产生了相似的整体性能。SHAP可以用来解释XGBoost模型,并通过可视化数据地理坐标的相互作用,生成与SLM和MGWR中这些模型一致的参数。

为了展示使用机器学习模型和SHAP的灵活性,我们在3.2节中描述的模型之上运行了一个新的仿真,但增加了两个额外的效果:一个具有新特征X3的非线性三次效应(X33)和一个现有特征X1和X2之间的交互效应(2X1X2)。Eq.(7)显示了每个数据点i的结果数据生成过程,该过程用于创建新数据,以便同时使用MGWR和XGBoost进行拟合。

从图6的SHAP汇总图中可以看出,XGBoost正确地提取了X1、X2和X3特征的主要效应以及Eq.(7)设计的任何可能的交互效应。在整体模型精度方面,XGBoost的R2值为0.893,预测RMSE为1.167,而MGWR的R2值为0.735,预测RMSE为1.724。在这种情况下,XGBoost比MGWR更准确,因为它能正确识别所有共存的效应

从图7可以看出,对于估计的空间变化效果,shap解释的XGBoost更准确地复制了设计的真实数据生成过程。由于忽略了相互作用和非线性效应,MGWR的参数估计精度较低。值得注意的是,对于非线性效应,MGWR将其估计为空间变化效应,这可能会在估计和解释中引起偏差(Sachdeva, Fotheringham, Li, & Yu, 2021)。

在本次仿真中,如图8所示,对于特征X3,假设其与模型预测的部分关系是非线性的,如XGBoost正确建模(如图左),而不是像MGWR模型(如图右)那样是空间变化的。

4.案例——芝加哥汇总的乘车服务

在本节中,我们展示了一个使用SHAP来解释芝加哥市人口普查区乘车服务需求的机器学习模型的经验示例。2019年的网约车出行数据是从芝加哥市数据门户网站检索的,该门户网站托管着交通网络公司(如优步、Lyft)提供的所有出行记录。

每次出行都有地理编码,包括上车和下车的人口普查区,以及其他出行属性,比如以英里为单位的出行距离,以及出行是否由多方共享。持续时间小于1分钟、距离小于0.1英里、票价低于2.5美元的小型异常行程被排除在分析之外。

人口普查区的网约车需求作为因变量,是来自该普查区的所有出行的总和。数据下载自美国社区调查(ACS) 2015-2019年5年估计和美国环境保护署(EPA)智能位置数据库(SLD),其中包括人口普查区的社会经济学和建筑环境。具体来说,模型中使用的特征是白人人口百分比(pct_white), 18至34岁人口百分比(pct_18_34),无车家庭百分比(pct_no_car),拥有学士学位或更高学位的人口百分比(pct_bach),就业熵(基于SLD中定义的5种工作类型的多样性),人口密度的对数(log_pop_den),平均旅行距离(ave_trip_dist),共享出行的百分比(pct_shared),以及每个人口普查区质心的X和Y坐标(x_coord和y_coord)。人口少于500的人口普查区被排除在分析之外,以避免ACS和SLD数据集的小样本偏差。最终使用的数据如图9和图10所示。

使用XGBoost模型预测出行需求数据集,随后计算SHAP值。并拟合了MGWR模型和SLM模型。在整体模型拟合方面,XGBoost的R2值最高,为0.94,MGWR和SLM的R2值分别为0.84和0.79。图11显示了贡献最大的15个特征的SHAP汇总图。很明显,一个地区的教育水平和平均旅行距离是模型中最重要的特征,其次是18至34岁人群的比例。

位置效应在模型中也很重要,通过X和Y坐标的SHAP值的大小来评估。除了网络密度之外,其他特征也对模型有所贡献,因为网络密度的影响很小。值得一提的是,在SHAP总结图中,没有发现位置和非位置特征之间的主要交互作用;因此,在这种情况下,可能不需要空间变化系数模型(例如GWR)。SHAP估计中的不确定性(浅蓝色阴影部分)也使用基于残差重采样的非参数自举方法进行估计(Efron, 1992)。模型残差通过替换重新采样,并添加到预测中以创建新的因变量,然后使用相同的超参数重新训练XGBoost模型,并重新计算和存储SHAP值。这一过程重复了5000次,并使用自举抽样分布的百分位数计算了SHAP值的95%置信区间。

图12描述了在考虑模型中其他因素的情况下,每个非位置特征的部分依赖图。

5.讨论

在本节中,将讨论一些进一步的问题和机会。

首先,使用SHAP提供可靠的估计需要机器学习模型是准确和稳健的。如果模型不能捕获空间关系,那么就不可能使用SHAP来估计任何空间效应。在本文中,我们使用了一个以坐标为空间特征的XGBoost标准示例,我们发现该模型性能良好,并且从SHAP中提取的空间效果是真实参数的良好近似值。然而,这不可能在所有情况下都是最优的。在经验空间应用中,鼓励使用对空间数据有特殊考虑的模型,而不是使用标准的机器学习模型。

其次,对SHAP值的解释需要特别注意。SHAP值是特征对实际预测和平均预测之间差异的贡献,同时考虑模型中的其他因素(Lundberg & Lee, 2017)。SHAP值代表部分相关性,这意味着它们与回归模型中的系数没有完全相同的解释(Molnar, 2020)。

第三,机器学习和SHAP的结合可以成为识别重要特征和从数据中探索关系的功能形式的好工具。当数据量大且关系复杂且未知时,统计模型的模型选择通常具有计算挑战性。对于空间模型,通常需要额外的计算(例如,空间协方差矩阵的逆,每个位置的局部回归)来解释可能的空间影响。机器学习通常需要更少的关于底层生成过程的假设,并且它们擅长检测大量数据中的模式,特别是当存在复杂的非线性相互作用时(Bzdok, Altman, & Krzywinski, 2018)。

最后,尽管最近的许多研究都集中在开发空间显式机器学习模型上(例如Du, Wang, Wu, Zhang, & Liu, 2020;Yan, Janowicz, Mai, & Zhu, 2019;詹等人(Zhan et al., 2017),对推进空间显式解释方法的关注要少得多。例如,可以借用地理权重和接近度的概念来构建局部代理模型来解释地理上的局部关系。未来的工作可以开发新的解释方法,更适合于空间数据和空间显式模型,以帮助理解空间关系

  • 22
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值