论文笔记:An ensemble spatial prediction methodconsidering geospatial heterogeneity

(一种考虑地理空间异质性的集合空间预测方法)

话题点:空间异质性,空间数据挖掘、集成学习

模型:提出了一种新的地理空间异构集成学习方法(GSH-EL)。

首先,采用地理加权回归模型、地理最优相似性模型和随机森林模型作为3个基础学习器,分别表达地理要素的局部空间异质性、全局特征相关性和非线性关系;然后,通过探索空间邻近性与集成权重之间的复杂非线性关系,提出一种GSH-EL空间加权集合神经网络模块(SWENN)来表达空间异质性。最后,将3个基学习器的输出与SWENN的空间异构集合权重相结合,得到空间预测结果。

1、引言

空间预测技术通过统计或机器学习方法利用有限的观测数据和地理特征来估计未知地理位置的属性或特征。事实证明,该技术对于减轻空间数据稀疏性的影响至关重要。

空间预测模型策略可分为单模型集合类型和多模型集合类型。单一建模策略通常采用统计和机器学习方法来学习数据的空间依赖性结构。使用单一模型通常难以实现最优的空间预测结果。此

为了进一步提高空间预测模型的预测性能和泛化能力,已有研究将集成学习纳入地理空间数据建模。集成学习通过构造和组合多个异构基学习器,综合不同基学习器的优势来完成学习任务,从而在一定程度上缓解了空间预测中模型选择的问题。根据基础学习器组合策略的不同,集成学习可以分为两种类型:基于统计的和基于学习的。与单一建模策略相比,结合多个模型的集成策略可以实现更强的泛化能力和更高的准确性。

地理要素在整个研究区域内通常具有异质性,表现出明显的空间异质性。地理加权回归模型 (GWR) 通常需要构建由空间邻近度量参数化的权核函数,从而能够对空间异构关系进行建模.GWR中用于计算空间权重的简单核函数结构使得难以描述空间邻近性对集合权重的复杂非线性影响,导致难以充分表达复杂地理关系的空间异质性。

针对集成策略设计中如何准确表达空间异质性的问题,提出一种考虑空间异质性的新颖的集成空间预测方法。主要贡献包括:

  1. 设计了一种地理空间加权集成神经网络模块(SWENN)。该算法利用神经网络高度抽象的表达能力和高维动态学习能力,准确求解权重核函数,同时充分挖掘空间邻近性与模型集合权重之间的复杂非线性关系。从而实现了集成过程中空间异质性的准确表达。

  2. 该文提出一种新的地理空间异构集成学习方法(GSH-EL)。该方法将地理要素的局部空间异质性、全局特征相关性和非线性关系嵌入到SWENN模块中,用于集成建模。

  3. 从基于回归的空间预测任务和基于分类的空间预测任务的角度,利用真实地理空间数据集验证了所提方法的验证。

2、相关工作

2.1. 使用单一建模策略进行空间预测

单一建模策略旨在使用单一统计或机器学习算法来描述数据之间的空间相关性,并估计未观测位置的空间特征。目前的方法大致可分为基于统计的方法和基于机器学习的方法。

常见的基于统计的方法可分为以下几类。第一类包括基于空间依赖的模型,例如普通克里金法和空间贝叶斯层次模型。第二类是基于空间异质性的模型,包括三明治模型、P-BSHADE模型、地理加权回归、地理广义加性模型和广义异质性模型。地理加权回归是一种经典的空间预测方法,用于对目标变量和解释变量之间的空间变化关系进行建模。广义异质性模型应用区域间克里金法来表征不同子区域之间的空间相关性,从而提高了整个研究区域和沿地层边界的整体预测精度。第三类是基于地理配置相似性的模型。例如,地理最优相似性模型计算地理环境的相似度,并选择相似度最优的样本,推断出预测样本的目标变量,为空间预测提供了新的视角。此外,二维空间关联模型提取样本外位置的地理信息,探索空间关联,利用第二维变量有效指示局部范围地理环境解释变量内的多尺度效应和多样化信息。

随着近年来人工智能技术的快速发展,机器学习模型在空间预测领域也得到了广泛的应用。特别是随机森林通过应用bagging技术聚合多个分类树和回归树,克服了单个决策树过拟合等问题。考虑到解释变量的丰富多样性,与传统方法相比,它可以获得更好的预测结果。此外,神经网络模型依靠其强大的表达和学习能力,实现对复杂动态和非线性问题的准确解。卷积神经网络用于改进地理加权回归模型中的核函数,捕获全局空间邻近信息与空间权重之间的关系进行加权预测。

尽管基于单一建模策略的空间预测方法众多,能够有效提升模型的预测能力和应用价值,但这些方法往往无法捕捉复杂的地理过程,预测精度和泛化能力有限。

2.2. 使用集成建模策略进行空间预测

基于集成建模策略的空间预测方法通过整合多个单一模型的输出,提高了整体预测精度和泛化性能。目前的集成学习根据基础学习器的类型可分为同质集成学习和异构集成学习.

同构集成学习是指相同类型的基础学习器,包括 Bagging 和 Boosting 等集成框架,通过抽样或调整样本分布来训练基础学习者。这些同构集成学习方法在一定程度上提高了空间预测的精度。然而,由于他们的训练过程涉及同一基础学习器的多次组合来构建集成模型,如果基础学习器的误差较大,可能会导致最终预测结果中的误差放大。

与同构集成学习相比,异构集成学习可以集成多个不同的基学习器,从而更好地覆盖原始预测问题的解空间。因此,它往往表现出更大的鲁棒性和泛化价值.根据基础学习器的集成策略,可以分为基于统计的集成方法和基于学习的集成方法。基于统计的集合方法使用统计模型集成多个碱基学习器的输出,以获得最终预测。基于学习的集成通过使用另一个学习器来学习如何最好地集成来自多个基础学习器的输出,从而获得更好的预测结果。常见的集成策略包括神经网络模型、岭回归、逻辑回归、多元线性回归和深度学习模型.然而,由于地理元素固有的空间异质性,基础学习器的预测精度在空间位置上差异很大。目前的研究在设计集合策略时,通常假设整个研究区域的样本遵循独立且相同的分布,并使用全局固定的统计或机器学习模型来拟合不同基础学习器的预测结果,忽略了集合权重的空间异质性。

考虑到地理数据中空间异质性的存在,相关研究已经开始采用地理加权相关模型作为集合策略。但是目前的研究采用的是简单的核函数结构难以充分评估空间邻近性对模型集合权重的复杂非线性效应,导致在集成过程中准确求解基础学习器之间复杂地理关系的空间异质性存在困难。因此,迫切需要开发新的空间异质性表达方法,以实现权核函数的精确解

3. 研究方法

3.1. 总体框架

本文提出了一种GSH-EL方法,如图:

总结如下:首先,选择GWR、地理最优相似性模型(GOS)和随机森林模型(RF)作为集成框架的基学习器;将观察到的位置和未观察到的位置输入到三个基础学习器中,以获得输出特征向量。然后,采用普通最小二乘法,利用观测位置的特征向量计算基础学习器的全局平均集合系数。随后,将数据集分为训练数据集、验证数据集和测试数据集。构造SWENN以空间邻近向量为输入求解权核函数,得到基础学习器的空间异构集合权重。最后,利用空间异构集合权重和全局平均系数,对不同基学习器的输出结果进行积分,得到最终的集合预测结果。

3.2. 基础学习器的设计

GWR、GOS和RF模型在空间预测领域得到了广泛的应用。它们的多样性使我们能够捕获底层数据模式的不同方面,从而增强集成模型的整体预测能力。3种模型分别表达了地理要素的局部空间异质性、全局特征相关性和非线性关系

3.2.1. 地理加权回归模型

3.2.2. 地理最优相似性模型

GOS 用作 GSH-EL 的第二个基础学习器。它实现了局部空间相关性与全局特征相关性的深度耦合。

通过整合来自空间中任何位置具有相对高度相似度的样本的信息,GOS模型为空间预测提供了一种新的视角。该模型不是直接在解释变量和目标变量之间构建显式关系,而是使用一组解释变量来表征样本的地理配置。通过计算未观测位置与观测位置之间的地理配置相似性,选择相似度较高的样本进行计算,并将相似性信息作为权重对预测值进行加权

3.2.3. 随机森林模型

在真实的地理过程中,地理关系通常表现出复杂的非线性特征。与对解释变量和目标变量之间的局部线性关系进行建模的 GWR 相比,RF 通过分割特征来生成树形结构,从而很好地映射了数据中存在的非线性关系。对于离散和连续地理数据的空间预测,RF通过Bagging集成多个分类和回归树,在空间预测任务中得到了广泛的应用,实现了比单一决策树更好的性能。因此,将RF作为第三基学习器,进一步考虑地理关系的非线性特性。RF 的实现过程如下:

  1. 使用 Bootstrap 策略对训练集进行重采样,该策略被分配到MM子训练集S1,S1, S2,S2,…,SM SM 基于重新采样结果。

  2. 选择一部分特征来构建每个决策树。

  3. 独立决策树模型T1,T1, T2,T2,…,TMTM专为MM子训练数据集。

  4. 测试数据集的最终输出是根据多数投票或分类和回归任务的平均值确定的。

3.3. 集成策略的设计

3.3.1. 考虑空间异质性的集合策略设计

常用的集成学习策略包括投票、平均和元学习。投票适用于分类任务,其中最终输出类别由多数规则确定。平均法由两种策略组成:平均集合 (SA) 和加权集合 (WA)。元学习方法旨在使用基础学习器的输出作为输入来训练元模型,以获得最终的预测结果。

目前研究中设计的元模型通常基于样本独立且分布相同的假设,允许不同的基础学习器具有全局固定的权重。例如,线性回归模型 (LinReg) 被用作元模型,该元模型对输出结果进行全局回归FGWR, FGOS和FRFF射频三个基础学习器。集成预测结果YˆŶ计算公式为:

由于地理要素的空间异质性,基础学习器的输出与最终集合结果之间的关系在不同的空间位置上表现出可变性。这种关系在不同空间位置上的差异,可以看作是空间异质性所产生的平均水平的波动。因此,该研究增加了一个空间异质集合衡量这种波动的程度:

3.3.2. 空间加权集成神经网络的设计

在空间异质性的地理建模中,通常需要构造一个由空间邻近性度量参数化的加权核函数,然后使用局部最小二乘法求解回归系数。因此,核函数的准确求解是实现空间异质性准确建模的关键。考虑到神经网络模型求解复杂非线性问题的强大能力,本文设计了SWENN以准确求解:

SWENN使用多层感知器作为骨干网络,在输入层和输出层之间有两个隐藏层。将神经网络的各层与全连接连接起来,并引入dropout技术以增强网络的泛化性。此外,在隐藏层中采用参数化整流线性单元(PReLU)作为激活函数,并使用He参数初始化方法设置初始参数。同时,设置批量归一化层对数据进行归一化,以提高模型的训练速度。

3.4. GSH-EL的培训框架

由于在GSH-EL中使用神经网络来求解空间异构集合权重,神经网络在训练过程中容易出现欠拟合或过拟合、梯度消失或爆炸等问题。为了提高GSH-EL的训练能力,对GSH-EL采用了训练框架(图3).主要步骤是

4. 实验

该方法使用两个真实任务进行评估,包括PM上连续变量的回归任务2.5中国空气质量数据集和中国香港滑坡数据集上离散变量的二元分类任务。

4.1. 案例一:PM的空间预测2.5分布

4.1.1. 研究区域和数据

观测到的年平均 PM2.52018年浓度数据来源于中国环境监测中心(http://www.cnemc.cn)。考虑到 PM2.5浓度受气溶胶光学深度(AOD)、表面高程(DEM)、温度(TEMP)、降水量(TP)、风速(WS)、风向(WD)、相对湿度(RH)等因素影响,这些因素作为空间预测的解释变量PM2.5浓度。共包含 1456 条观察记录,随机分为训练 (815)、验证 (204) 和测试 (437) 数据集。

图4. PM的空间分布2.5数据。IJGIS对争议领土的管辖权主张和图中所含地图中使用的命名惯例保持严格中立。

4.1.2. 实验实现
4.1.2.1. 比较方法

采用现有的4种集成策略作为对比模型来评估所提方法,包括平均集成(SA-EL)、加权集成(WA-EL)、线性回归集成(LinReg-EL)和地理加权回归集成(GWR-EL)。

4.1.2.2. 评估指标

选取回归任务中常用的6种准确率评价指标,对所提方法进行定量评价,包括平均绝对误差(MAE梅)、平均绝对百分比误差、均方根误差、决定系数、调整决定系数和信息准则。 

4.1.2.3. 参数调优

对于基础学习器的参数配置,GWR使用自适应Bi平方核函数,确定最优带宽为87个样本。通过CV方法确定GOS中的相似性阈值为0.003。通过网格搜索确定RF的参数,并设置了250个子回归树,每个子回归树在叶节点中至少包含1个样本,在非叶节点中包含至少2个样本。对于GSH-EL,SWENN由一个输入层、两个隐藏层和一个输出层组成。采用交叉搜索策略确定两个隐藏层中神经元的最优数量。

此外,均方误差(MSE)被用作模型训练过程的损失函数,并用作验证数据集的过拟合评估指标。最大过拟合容差设置为 20 个 epoch,如果指标的持续上升或持平趋势超过此值,我们将停止训练并返回到之前记录的最优模型参数。图5显示了 GSH-EL 的训练和验证数据集的性能变化。训练数据集的 MSE 值在第 150 个 epoch 后不断减小并收敛。然而,验证数据集的MSE值在第163个epoch处降至最低值后,开始保持上升或持平的趋势,可以认为是过拟合。因此,以epoch = 163的模型为最优模型

图5. PM 上 GSH-EL 训练和验证数据集的性能变化2.5数据。

4.1.3. 结果与讨论
4.1.3.1. 预测精度的定量分析

3种基础学习器和5种集成学习方法在PM上的实验结果2.5测试数据集如表3.在基础学习器中,GWR 在 RMSE 和 R2 上表现最好, Adj. R2和 AIC 指标,RF 在 MAE 和 MAPE 指标上表现最佳。由于GOS对异常样本的敏感性,GOS在三个基础学习器模型中具有最低的预测精度。

五种集成学习方法使用不同的策略对基础学习器进行整合,其预测精度高于单一基础学习器。这表明,多个模型的集合可以整合不同模型的优点进行预测任务,从而实现比单一模型更好的精度。SA-EL、WA-EL 和 LinReg-EL 为基础学习器分配全局固定的集合权重,从而在预测精度上产生最小的差异。GWR-EL在集成过程中考虑了空间异质性,在MAE指标上优于SA-EL、WA-EL和LinReg-EL。然而,GWR 中使用的自适应高斯核函数的简单结构限制了 GWR-EL 的预测能力,与 SA-EL、WA-EL 和 LinReg-EL 相比,其他指标没有改善。所提GSH-EL重新求解了权核函数,所有指标均优于现有模型,表明集成策略中空间异质性的准确表达可以有效提高集成模型的预测精度。

4.1.3.2. 预测精度的定性分析

为了定性分析不同集成模型的预测性能,提出了WA-EL、LinReg-EL、GWR-EL和GSH-EL在测试数据集上的预测值和真实值的散点图(图6).GSH-EL值主要分布在1:1线附近,相关系数r=0.9177,是3种比较方法中最高的。特别是,对于测试数据集上的异常值样本,例如具有 PM 的数据样本2.5浓度高于75ug/m3,GSH-EL具有较强的预测能力,证明GSH-EL对异常样本具有较强的适应性。

图6. PM上不同集合模型的预测值和真实值的散点图2.5数据。

通过比较不同方法的空间分布和预测误差百分比(图7),发现GSH-EL预测结果中绝对误差大于12的样本数占1.15%,低于WA-EL(3.20%)、LinReg-EL(2.98%)和GWR-EL(3.21%),52.17%的样本在GSH-EL的预测结果中绝对误差在3以下, 优于WA-EL(49.20%)、LinReg-EL(49.88%)和GWR-EL(50.34%),解释了GSH-EL模型总体预测结果更好的原因。

图7. WA-EL、LinReg-EL、GWR-EL 和 GSH-EL 在 PM 上的绝对误差比较2.5数据。IJGIS对争议领土的管辖权主张和图中所含地图中使用的命名惯例保持严格中立。

4.1.3.3. 基础学习器对预测精度的影响

考虑到3个基础学习器从不同角度描述地理关系,本研究将三个基础学习器成对组合,训练3个不同版本的GSH-EL,以进一步探究不同基础学习器对其预测精度的影响。不同的基础学习器对最终预测结果的贡献不同 (表4).

4.2. 案例二:滑坡易发性空间预测

4.2.1. 研究区域和数据

对香港滑坡数据集进行随机抽样,得到1000个历史滑坡样本点和1000个非山体滑坡样本点。以土地利用(LU)、岩性(LITH)、高程(DEM)、坡率(SLO)、曲率(CUR)、坡向(ASP)、归一化差值植被指数(NDVI)、河道功率指数(SPI)、地形湿润指数(TWI)、距最近道路距离(Road_D)、距最近排水距离(DRA_D)、距最近集水区距离(CAT_D)、距断层最严重道路距离(Fault_D)和变形速度(DV)作为预测滑坡易发性的解释变量。

这些数据集是从中国科学院计算机网络信息中心(https://www.cnic.cn)和美国地质调查局(https://www.usgs.gov)下载的。数据集 (表5,图8)被随机分为训练(1120)、验证(280)和测试(600)数据集。

图8. 山体滑坡易发性数据集的空间分布,如(a)山体滑坡和非山体滑坡,以及(b)训练、验证和测试位置。

4.2.2. 实验实现
4.2.2.1. 比较方法

采用投票法、逻辑回归和GWR作为集合策略,构建了Voting-EL、LogReg-EL和GWR-EL等比较模型。Voting-EL 使用少数-多数策略来处理三个基础学习器的二元分类结果。GWR-EL 使用与第 4.1.2 节中类似的方法来确定最佳带宽为 130。

4.2.2.2. 评估指标

受试者工作特征 (ROC) 曲线 (AUC) 下的面积是一个汇总指标,用于量化模型在所有可能阈值下的整体性能。AUC 值越接近 1,性能越好。此外,选取总体准确率(OA)、准确率、召回率、F1评分、马修斯相关系数(MCC)和交并比(IOU)6个精度评价指标对所提方法的预测精度进行评估:

4.2.2.3. 参数调优

关于基础学习器的参数配置,使用与第 4.1.2 节中类似的方法来确定每个模型的参数。GWR 设置自适应双平方核函数,最佳带宽为 218 个样本。GOS 的相似性阈值为 0.01,RF 设置了 300 个子分类树。

除了设置输入层、两个隐藏层和输出层外,SWENN还在输出层添加了一个sigmoid函数,该函数将模型输出特征转换为0到1的概率值,以确定是否正在发生滑坡。GSH-EL的架构和超参数设置如表6GSH-EL的训练和验证数据集的性能变化如图9.

图 9. GSH-EL训练和验证数据集在滑坡易发性数据集上的性能变化。

4.2.3. 结果与讨论

不同方法在测试数据集上的实验结果如表7,并根据滑坡易发性预测结果绘制了ROC曲线(图10).三个基础学习器的总体精度从高到低依次为RF、GWR和GOS。在所有评估指标中,四种集成方法都优于三种基础学习器。

图 10. 不同方法在滑坡易发性测试数据集上的ROC曲线。

5. 结论

本文提出一种考虑空间异质性的集合空间预测方法。该方法从不同地理关系表达的角度出发,通过设计3个基础学习器(GWR、GOS和RF),充分考虑了地理要素的局部空间异质性、全局特征相关性和非线性关系。此外,利用具有自适应学习能力的SWENN实现了集成策略中空间异质性的准确表达。该模型利用神经网络高度抽象的表达能力和高维动态学习能力,在空间邻近性和集合权重之间建立复杂的非线性关系,从而实现基于空间模式的基础学习器的自适应集成。最后,设计了一种考虑空间异质性的集成学习框架,将3个基学习器的预测结果集成到SWENN中,以产生更准确的预测结果。

尽管所提方法具有优异的预测性能,但也存在一些局限性。首先,我们的模型仅使用传统的欧几里得距离来表征空间邻近性;需要对空间邻近性的统一表达式进行研究,以进一步提高求解权核函数的精度。其次,利用神经网络强大的学习能力,设计了一种考虑空间异质性的集成学习策略;然而,神经网络的黑盒过程在一定程度上限制了集成模型的可解释性。需要进一步研究探索地理空间异质性在基础学习者集成过程中的机制,并研究不同基础学习者在集成过程中的强度和响应规则。最后,我们的研究主要关注空间异质性的表达,忽略了地理空间数据的时间非平稳性。因此,在考虑时空异质性的集成学习方法上,可以进一步开展研究,以进一步拓展集成学习在地球科学领域的应用。

  • 25
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值