机器学习周报-文献阅读

摘要

本周阅读了一篇基于河岸空间结构和河流光谱特征的城市河流水质高精度反演的论文,目前主流的水质遥感监测方法主要依靠水体的光学特性来实现水质反演,而忽略了水质与河岸带的相关性。河岸带作为连接河流生态系统和陆地生态系统的中间地带,其空间结构和尺度变化对水质有重要影响。为此,该论文首次采用无人机搭载多光谱遥感技术,捕捉城市河流水质的细微变化,获取河岸带的详细空间信息。用Liang–Kleeman 信息流定量评估的因果响应的河岸带的空间组成的水质参数在不同的空间尺度。将河岸带的空间特征与水体的光谱特征相结合,建立了一个用于水质评价的分层集成学习模型,显著提高了水质评价模型的准确性和稳健性。

Abstract

This week, I read a paper on high-precision inversion of urban river water quality based on riparian spatial structures and river spectral signatures. Current mainstream remote sensing methods for water quality monitoring primarily rely on the optical properties of water bodies to achieve water quality inversion, while overlooking the correlation between water quality and riparian zones. As an intermediate zone connecting river and terrestrial ecosystems, the spatial structure and scale variations of the riparian zone significantly impact water quality. To address this, the paper pioneeringly employed drone-mounted multispectral remote sensing technology to capture subtle changes in urban river water quality and obtain detailed spatial information of the riparian zone. The Liang-Kleeman Information Flow was used to quantitatively assess the causal responses of water quality parameters to the spatial composition of the riparian zone across different spatial scales. By integrating the spatial features of the riparian zone with the spectral characteristics of the water body, a hierarchical ensemble learning model for water quality assessment was developed, significantly improving the accuracy and robustness of the water quality evaluation model.

现有问题:

  1. 城市河流河岸带的高度非均匀性显著影响其与水质的耦合关系
  2. 传统的遥感观测方法也有一定的局限性。大多数城市河流的特点是内河水体小,河道狭窄。

因此,研究城市河流河岸带的空间组成结构,量化不同空间尺度下河岸带对水质的影响,建立城市河流河岸带空间特征与河流水质的相关性,是十分必要的。利用低空无人机载多光谱遥感技术进行城市河流水质监测是一种较为合适的选择。

创新点:

本研究旨在调查和量化城市河流河岸带与水质之间的相互关系,同时开发专门针对城市河流的高精度水质反演模型。具体而言,基于无人机多光谱遥感技术利用Liang-Kleeman信息流方法,定量分析了城市河岸带不同空间组分(尤其是不透水面等人工地物)在不同空间尺度上对水质的影响。在此基础上,建立了一种集成学习的水质分类模型,该模型将河岸带的空间特征与水体的光谱特征相结合,能够准确反演城市河流水质。

1 模型流程

首先,使用自制的无人机多光谱遥感成像设备获取城市河流区域的高空间分辨率遥感影像。同时,同步人工采集河水样本并进行实验室测量(2.1)。随后,使用Deeplabv 3+网络对拍摄的遥感图像进行分割(2.2),结合河岸带的预定缓冲尺度,我们基于反距离加权法计算了河岸带不同尺度内每个空间分量的覆盖密度(2.3.2逆距离加权土地覆盖密度(idLCD))。将距离加权的土地覆被密度反演值与实验室实测的水质参数浓度相结合,利用Liang-Kleeman信息流方法,量化了河岸带空间特征与水质参数之间的因果关系(2.3.3信息流)。最后,开发了一种用于水质评价的集成学习方法,该方法中,将河岸带的空间特征、水体的光谱特征和实验室实测的水质等级作为输入值,实现了城市河流水质的高精度反演和验证(2.4)。本研究采用的主要方法简明地描述在图中。

在这里插入图片描述

2 实现方法

2.1 数据采集

研究区域:上海普陀区桃浦河段,长度约6.2公里,河宽最大49米,河岸带包含多种土地使用类型(如住宅、工厂、道路、公园、荒地)。

水质参数:本研究选取三项水质指标进行监测:总磷(TP)、氨氮(NH3-N)和化学需氧量(COD)。这些是城市污水的主要污染物,对河岸带土地使用变化敏感。(总磷的测定采用钼酸铵分光光度法,氨氮的测定采用纳氏试剂分光光度法,COD的测定采用重铬酸钾法。)

河岸带特征

  • 土地使用分类:通过无人机搭载的窄带多光谱相机(675nm、705nm、850nm等波段)和DeepLabv3+模型,将河岸带分为五类:水体、植被、裸土、建筑、不透水面。
  • 空间尺度:根据中国生态环境部的指导意见,设置6种河岸带宽度(30m、50m、70m、90m、110m、130m),以分析不同尺度下土地使用对水质的影响。
  • 土地覆盖密度:提出了一种**逆距离加权土地覆盖密度(idLCD)**指标,强调靠近水体的土地特征对水质的更大影响。公式为:

i d L C D i = ∑ 1 D i s j × S j S T o t a l idLCD_i=\sum\frac{1}{Dis_j}×\frac{S_j}{S_{Total}} idLCDi=Disj1×STotalSj

​ 其中, S j S_j Sj是土地类型 i i i的子区域面积, D i s j {Dis_j} Disj是该子区域到水体的距离, S Total S_{\text{Total}} STotal是总面积。这种方法比传统土地覆盖密度(LCD)更能反映近水区域的影响。

数据采集:

  1. 无人机多光谱影像(空间分辨率1.2mm/pixel,覆盖面积66.86m×44.57m)。

    1. 在39个监测点同步采集水样,通过实验室分析确定TP(铵钼酸盐分光光度法)、NH₃-N(纳氏试剂分光光度法)和COD(重铬酸钾法)的真实值。
    2. 在连续晴天条件下采集数据,避免降雨对水质的干扰。

更多无人机摄像机的详细参数如表:

在这里插入图片描述

2.2 土地利用分类

利用DeepLabv3+模型进行语义分割,对土地利用进行分类,将河岸带分为五类:水、植被、裸土、建筑、不透水面。如图为多通道DeepLabv3+网络框架,采用编解码器(Encoder-Decoder)架构。

在这里插入图片描述

该模型的分类准确性进行了评估,使用各种评价指标,包括准确度(Acc)、总体准确度(OAcc)、Kappa系数和F1评分。这些计算公式如下:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

其中,TP(真阳性)、TN(真阴性)、FP(假阳性)和FN(假阴性)用作分类问题的性能度量。在本研究的背景下,TP表示属于特定类别并被分类器正确分类到该类别的地面对象的样本数量。TN是指不属于特定类别的地面对象被分类器正确地分类到其他适当类别的情况。FP表示不属于特定类别但被分类器错误地分类到该类别中的地面对象的样本数量。FN表示属于特定类别但被分类器错误地分类到其他类别的地面对象的样本数量。变量i表示地面物体的类别。

2.3 河岸带的空间特征

2.3.1 刻度的划分

根据中国生态环境部的指导意见,设置6种河岸带宽度(30m、50m、70m、90m、110m、130m),以分析不同尺度下土地使用对水质的影响。

2.3.2 土地覆被密度

为了强调河流生态系统中靠近水的土地特征的重要性,作者开发了一个逆距离加权土地覆盖密度(idLCD)指数。具体来说,利用反距离加权方法来分配权重的基础上接近每个地面对象的水体,导致更高的权重为对象位于更接近水体。计算详见下式:

在这里插入图片描述

其中,j表示土地覆盖类型i的子集, D i s j Dis_j Disj表示该地物矢量对象与水体之间距离, S j S_j Sj是矢量对象的面积, S T o t a l S_{Total} STotal表示总的陆地面积。利用上述公式,可以计算不同尺度下河岸带各组分的idLCD。

2.3.3 因果关系的量化

Liang-Kleeman信息流可以用来量化动态实体之间的因果关系,这种因果关系描述代表了传统意义上的相关性的深化,在城市河流生态系统的背景下,先前的研究已经确定,河岸带对河流中水质参数的浓度有着重要影响。因此,本研究首次将Liang-Kleeman信息流应用于河岸带各空间组分是否引起不同空间尺度河流水质参数浓度的变化的综合评价。此外,它的目的是精确地量化这种因果影响的强度,从而阐明了河岸带的空间特征和河流水质动态之间的复杂关系的潜在机制。根据Liang-Kleeman信息流理论,假设存在n维变量,信息流的速率可以简洁地表示为:
在这里插入图片描述

其中, T j − > i T_{j->i} Tj>i表示从 x j − > x i x_j->x_i xj>xi的信息流速率, C i j C_{ij} Cij表示样本协方差, C j , d i C_{j,d_i} Cj,di是从 x j x_j xj x i x_i xi导出的序列之间的样本协方差。非零 ∣ T j − > i ∣ |T_{j->i}| Tj>i表示 x j x_j xj x i x_i xi之间的因果关系,而零值表示不存在这种关系; ∣ T j − > i ∣ |T_{j->i}| Tj>i直接对应于因果关系的强度;值越大,因果关系越强。

2.4 河流水质评价模型

根据各种参数的浓度,水质分为六类:I类,II类,III类,IV类,V类和V类劣,I类是最高质量,V类劣是最差的

利用Stacking技术构建了河流水质评价模型。堆叠是一种集成学习方法,通过将来自多个基本模型的预测作为新特征合并到二级模型矩阵中来提高整体模型性能。根据先前的研究,我们选择了支持向量机(SVM)、随机森林(RF)和神经网络(NN)作为我们的机器学习方法的基础模型的报告。对于二级模型,采用logistic回归(LR)来预测采样点的水质等级。

该集合模型将水质等级(实验室测量水质参数的浓度,然后将其划分为等级)水体的光谱特征(利用各波段的反射率作为水体的光谱特征)河岸带的空间特征(在第2.3.2节土地覆被密度中计算了不同空间尺度下河岸带的逆距离加权土地覆盖密度,随后将其作为河岸带的空间特征纳入模型中)作为输入。完整的数据集被分为训练集和测试集,分割比为0.7和0.3。如图展示了基于集成学习的河流水质评价模型的整体网络结构。

在这里插入图片描述

3 结果

3.1 语义分割结果

城市河流地区进行土地利用分类,模型的性能进行了评估,结果如下表所示:

在这里插入图片描述

总体分割精度为92.61%,Kappa系数为90.42%。水体的分割精度达到了的97.78%,从而有助于精确地划定河流和河岸带之间的边界。值得注意的是,与人工类别(如建筑物和不透水路面)相比,自然类别(如植物和裸露土壤)的准确性相对较低。

对于植物,发现与阴影区的混淆,主要是由高层建筑和树冠造成的,是主要原因。在标注样本时,我们将阴影区域分类为背景。如图所示,该模型有效地将大部分阴影区域区分为背景,尽管有一小部分被错误地分类为其他土地覆盖。
在这里插入图片描述

在裸地类别中,某些区域表现出稀疏的低生长草本植物覆盖,这可能对裸地的准确分类产生显著影响。

在这里插入图片描述

3.2 信息流

信息流通过分析时间序列或空间数据中的信息传递,计算变量间的因果强度(以信息传输率表示,单位如nats/s),例如,计算不透水面密度(idLCD_impermeable)对COD浓度的信息流,量化其因果贡献。

实现过程:

  • 输入变量:

    1. 河岸带特征:各土地类型的idLCD值(如植被密度、不透水面密度),在6种宽度(30m至130m)下计算。
    2. 水质参数:监测点的TP、NH₃-N、COD浓度。
  • 公式:在这里插入图片描述

  • 输出:因果网络图(论文中使用蝴蝶路和全面的概念模型的空间结构的因果关系图展现)

为了更全面地说明河岸带各土地使用类型(如植被、不透水面)在不同空间尺度的分布特性与水质参数(TP、NH₃-N、COD)浓度之间的因果关系,作者绘制了一个蝴蝶图,如:

在这里插入图片描述

从图中可以明显看出,河岸带空间结构与三个水质参数之间的Liang-Kleeman信息流在不同尺度上有所不同。具体而言,就NH3-N而言,河岸带各组成部分对NH3-N的信息流规模分布更为均衡。值得注意的是,裸露土壤覆盖密度(BSCD)始终保持着较高的信息流水平,并且这种信息流随着空间尺度的增加而增加。相反,随着空间尺度的扩大,植被覆盖密度(PCD)的信息流呈下降趋势。此外,建筑物覆盖密度(BCD)和不透水的路面覆盖密度(ICD)demonstrate在50米的河岸带内的信息流的最高水平。BSCD对河岸带TP的影响大于其他三个组分,表明BSCD具有明显的优势。此外,随着空间尺度的扩大,可以观察到信息流的增加。与NH3-N相比,ICD在30 m河岸带空间尺度上表现出向TP的最大信息流,而PCD和BCD在130 m的空间尺度上表现出更强的因果响应。

至于COD,BSCD和ICD的信息流输出在河岸带内的各种空间尺度上保持一致的高,在30至50米处达到峰值。相比之下,PCD和BCD表现出相对较低的信息流。PCD在90m尺度上信息流最大,BCD在30m尺度上信息流最大。

我们已经开发了一个全面的概念模型的空间结构的因果关系,在河岸带水质参数在全球范围内,如下图所示。箭头的方向平行性表示信息的流动,而它们的粗细与信息传递的大小成正比。研究结果表明,在城市河流中,BSCD是影响水质参数浓度的主要决定因素,其次是ICD,而BCD和PCD的总体信息流相对较低。

在这里插入图片描述

3.3 河溪水质评估

本研究旨在探讨城市河流河岸带的空间特征对水质预测的增强作用,该集成学习模型在水质评价中预测各参数的等级时具有良好的可移植性,如表所示,其对NH3-N、COD和TP的评估准确度分别达到了94.87%、92.31%和89.74%。
在这里插入图片描述

将集成学习模型与基于光谱的水质评估模型的性能进行比较,下表提供了基于光谱特征的模型的评估精度和结果的详细信息,与基于光谱的水质评价模型相比,论文中建立的河流水质评价模型对COD的预测精度提高最为显著,达到15.39%;对TP的预测精度提高次之为12.82%;对NH3-N的预测精度提高相对较小,为7.69。在引入河岸带的空间特征后,模型能更准确地反映这些因素的影响。

在这里插入图片描述

4 讨论

4.1 河岸带的空间特征

未来研究的目标是在不同城市化阶段纳入更多的城市河流,丰富河岸带的空间组成特征。这将有助于更深入地验证模型的可靠性和稳健性。

除了评价城市河流河岸带空间组成特征对水质的影响外,我们还比较分析了不同空间尺度下河岸带与水质参数的总体相关性,如图所示

在这里插入图片描述

结果表明,在河岸带内的不同类别的水质参数敏感性的空间尺度的变化。在50 m尺度下,河岸带COD和NH3-N的信息流最大,随着尺度的增大,信息流明显减小。此外,河岸带向TP的信息流随着尺度的扩大而显著增加。然而,这种增长趋势主要归因于信息流从裸土输出。第3.2节中的分析表明,在河岸带的空间组成中,与其他土地覆被类型相比,裸露土壤对TP的信息流显著更高。这些发现加深了我们对城市河流空间组成和尺度与其水质之间相互关系的理解,从而为城市河流系统的管理和规划提供了新的见解

4.2 无人机多光谱遥感的潜力

低空多光谱遥感技术更适合的应用场景是在局部尺度上对内陆小水体水质进行准确、灵活的监测。这包括定期监测已受污染的河流,以评估水质,并对突发性水污染事件作出紧急反应。

5 代码

import numpy as np
import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt
from uuid import uuid4

# 模拟论文中的数据生成(39个监测点)
np.random.seed(42)
n_points = 39
data = {
    'idLCD_impervious': np.random.normal(0.6, 0.1, n_points),  # 不透水面密度
    'idLCD_vegetation': np.random.normal(0.3, 0.1, n_points),  # 植被密度
    'COD': np.random.normal(30, 5, n_points),  # 化学需氧量 (mg/L)
    'TP': np.random.normal(0.5, 0.1, n_points),  # 总磷 (mg/L)
    'NH3_N': np.random.normal(1.0, 0.2, n_points)  # 氨氮 (mg/L)
}
# 添加因果关系:不透水面对COD有正向影响,植被对TP有负向影响
data['COD'] += 10 * data['idLCD_impervious']  # 模拟不透水面对COD的因果作用
data['TP'] -= 5 * data['idLCD_vegetation']  # 模拟植被对TP的负向因果作用
df = pd.DataFrame(data)


# 数据标准化
def standardize(data):
    return (data - data.mean()) / data.std()


df_std = df.apply(standardize)


# 计算空间导数(使用相邻点差分近似)
def compute_spatial_derivative(data, dx=1.0):
    return np.diff(data) / dx


# 计算信息流 T_{X -> Y}
def compute_information_flow(X, Y, dx=1.0):
    # 计算时间/空间导数
    dX = compute_spatial_derivative(X, dx)
    dY = compute_spatial_derivative(Y, dx)

    # 调整长度(差分后长度减1)
    X = X[:-1]
    Y = Y[:-1]

    # 计算协方差矩阵
    C11 = np.cov(X, X)[0, 0]
    C12 = np.cov(X, Y)[0, 1]
    C22 = np.cov(Y, Y)[0, 0]
    C1_d1 = np.cov(X, dX)[0, 1]
    C2_d1 = np.cov(Y, dX)[0, 1]

    # Liang-Kleeman信息流公式
    denominator = C11 ** 2 * C22 - C11 * C12 ** 2
    if abs(denominator) < 1e-10:  # 防止除零
        return 0.0
    T_X_to_Y = (C11 * C12 * C2_d1 - C12 ** 2 * C1_d1) / denominator
    return T_X_to_Y


# 计算所有变量对之间的信息流
variables = df_std.columns
n_vars = len(variables)
causal_matrix = np.zeros((n_vars, n_vars))
for i, var1 in enumerate(variables):
    for j, var2 in enumerate(variables):
        if i != j:  # 不计算自因果
            causal_matrix[i, j] = compute_information_flow(df_std[var1].values, df_std[var2].values)

# 创建因果网络
G = nx.DiGraph()
for i, var1 in enumerate(variables):
    for j, var2 in enumerate(variables):
        if i != j and abs(causal_matrix[i, j]) > 0.1:  # 设置阈值以过滤弱因果
            G.add_edge(var1, var2, weight=causal_matrix[i, j])

# 可视化因果网络
plt.figure(figsize=(10, 8))
pos = nx.spring_layout(G)
edge_labels = {(u, v): f"{d['weight']:.2f}" for u, v, d in G.edges(data=True)}
nx.draw(G, pos, with_labels=True, node_color='lightblue', node_size=1500, font_size=10, arrows=True)
nx.draw_networkx_edge_labels(G, pos, edge_labels=edge_labels)
plt.title("Causal Network Based on Liang-Kleeman Information Flow")
plt.savefig("causal_network.png")
plt.close()

# 输出因果矩阵
print("Causal Matrix (Information Flow T_{X -> Y}):")
print(pd.DataFrame(causal_matrix, index=variables, columns=variables))

在这里插入图片描述

总结

通过阅读本篇文献,论文中使用Liang-Kleeman信息流(Liang-Kleeman Information Flow)来量化河岸带空间特征与水质参数(化学需氧量COD、总磷TP、氨氮NH₃-N)之间的因果关系,这一方法显著提升了水质反演的精度和解释性,并通过相关资料,我对信息流和因果网络这一概念有了一定的了解和认识;同时,通过与传统仅基于光谱特征的模型对比,文章中将河岸带空间特征的引入显著提高了水质评价模型的准确性和稳健性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值