第9章. 模型校准：评估性能

___Y1

已于 2024-04-09 12:44:18 修改

阅读量1.3k

点赞数 15

分类专栏：地下水数值模拟文章标签：人工智能算法大数据

于 2023-12-08 10:24:14 首次发布

本文链接：https://blog.csdn.net/weixin_44259522/article/details/134871887

版权

显然，许多科学领域需要精密的校准和无穷小的小数，因此，例如，太空发射并不计划在闰秒日期进行。但整个社会既不需要那种过分的测量，也无法从中受益。

——杰伊·格里菲斯，《时间的侧面观察》

9.1 介绍

地下水模型的建立将会非常直接，如果我们能够完美地表征自然界。然后，边界和参数的分配将涵盖所有相关的空间和时间信息，并且模型将完全模拟真实的地下水系统。

然而，地下水系统从来都不是完全已知的，我们必须将这个系统映射到一个模型空间中，而不是反映环境系统本身（Beven, 2009, p. 11）。

这里使用模型空间来定义对于一个现场而言可能适用的合理模型和模型输入的范围。在进行这种映射的过程中，由概念模型表示的自然界的简化视图已经被进一步简化，以便数值模型能够进行计算。为了评估将环境系统映射到模型空间的效果如何，必须使用可以与模型输出（硬数据）以及我们了解的关于系统的所有其他信息（软数据）进行比较的现场观测来评估模型的性能。

在正演问题中，诸如水力传导率、比存储、储存率/比释水系数和补给率等参数是已知的，而水头和通量是通过计算得出的。

然而，在实际应用中，现场测得的水头和通量通常以相对较高的置信度得知，而参数值则了解得较少。

在这种情况下，地下水模型被提出为一个反问题，其中水头观测形成了控制方程中的因变量，并用于求解参数值。

反问题通常通过历史拟合来解决，这个术语起源于石油工业，指的是通过调整模型输入，使模型输出与历史时间序列的测量值相匹配。

对于我们的目的，历史拟合是指在稳态和瞬时模拟中匹配现场测量（至少包括水头和通量）的历史。

历史拟合的目标是确定一组参数，使模型对场地观测能够得到令人满意的匹配。

在模型的顺序正演运行中，参数在合理范围内进行调整，直到模型产生令人满意的匹配。在其最一般的形式中（图 9.1），历史拟合包括以下步骤：

1. 从场地观测集合中选择校准目标；

2. 使用输入参数的最佳估计值（岩性属性参数和水文参数；第 5.4 节）运行模型；

3. 将模拟输出与目标进行比较；

4. 调整输入参数的值以获得更好地与目标的模拟值相匹配；

5. 在时间和资源限制下选择最佳拟合的模型。

我们区分历史拟合的两个阶段：

第一个涉及图 9.1 中显示的手动试错历史拟合阶段；以及随后的使用软件进行历史拟合的阶段。

历史拟合对于评估模型是否符合目标非常重要：

如果一个模型无法以足够的精度重现测得的水头和通量，那么我们就很难相信经过校准的模型能够充分复制未测得的水头和通量，或者预测未来的条件。

图 9.1 手动试错的历史拟合通用工作流程，这是面向预测的模型历史拟合的第一阶段（ME，均值误差；MAE，均值绝对误差；RMSE，均方根误差）。

历史拟合可被视为对模型性能的硬知识评估，因为现场测量可以直接与模拟值进行比较，有时也称为模拟等效值。

然而，良好的拟合并不意味着匹配就是可接受的；只有在获取拟合所需的参数和假设是合理的情况下，匹配才是可接受的。因此，模型性能评估还包括对水文地质合理性的软知识评估。

软知识依赖于有关系统的专业知识，这些知识无法直接与定量模型输出进行比较，并依赖于现场地质和水文信息以及概念模型中体现的基本水文地质理论（第2.3节）。

例如，如果我们知道含水层由砾石组成，那么使用砂和黏土的典型水力导数值来校准的模型将被拒绝，即使该模型令人满意地再现了现场观测。

同样，在大多数情况下，使用降水率大于降水率的模型虽然产生了良好的拟合，但也将因为水文地质上的不合理而被拒绝。

有效的软知识评估依赖于文献、对场地条件的了解、水文地质原理和专业经验。这种评估类型的指导方针不容易简化为简单的说明或步骤。

相反，软知识评估依赖于“水文感”（Hunt and Zheng, 2012），这是通过解决水文地质问题以及设计和运行模型的经验发展起来的。

在实践中，使用软知识对水文地质的合理性进行评估是与历史拟合一起进行的。

对硬知识和软知识的综合评估是模型校准，其中最终校准的模型既对观测有一个可接受的拟合，又包含合理的参数和假设。如果模型不能通过这两个评估，那么就不能认为它是经过校准的。

通常，大多数工作和报告都集中在模型适应观测的能力上（历史拟合），因为使用硬知识进行评估可以使用摘要统计数据和可视化轻松传达。

对模型对软知识的遵循的评估不容易量化，通常用言语表达（例如，“经过校准的参数值与报告的场地数值一致”）。

在实践中，使用硬知识对模型适应性的评估夹在两个软知识评估活动之间：概念模型的开发和评估校准参数的合理性。

尽管校准参数值的软知识评估很重要，但本章的重点是上述五个步骤，这构成了历史拟合。

9.2 历史拟合的局限性

地下水模型模拟了一个复杂的自然界部分，其中大部分是看不见且未被表征的（Freeze et al, 1990）。因此，地下水建模问题从根本上与一个开放系统相结合（Oreskes et al, 1994），按照定义，这是不可能完全表征的。因此，地下水模型始终是真实水文地质系统的一种简化。由于自然界在性质和过程上都很复杂，模型几乎总是具有比现场测量更多的未知参数值。因此，逆问题被认为是由观测引起的，并且在数学上是不适定的（例如，Freeze and Cherry, 1979; McLaughlin and Townley, 1996）。一个适定的问题具有一个解，该解连续地依赖于数据，并且是唯一的（Hadamard, 1902）。在实践中，我们通常知道的东西通常不足以将问题限定为一个唯一的解。相反，模型师通常必须考虑一个“家庭”可能的合理模型，因为地下水模型从根本上来说是不唯一的。在最广泛的意义上，建模问题可能被认为是关于系统如何工作的多个工作假设的表达，其中模型评估是一种假设测试，而不是找到最佳模型的问题（Beven, 2009, p. 18）。然而，在实践中，决策者通常需要一个与所关心的决策相关的单一“最佳”模型。因此，理想情况下，选择的最佳校准模型应该：（1）基于最强大的概念模型；（2）利用所有包含在可用观测中的信息；（3）避免对于感兴趣的预测结构和过程进行不适当的简化；（4）在空间和时间上具有足够的离散化；（5）在项目的财务和时间限制下具有可管理的运行时间。

充分了解地下水模型的非唯一性对于确定适当的模型以及形成可防御的模型家族至关重要。我们无法客观地定义一个唯一的最佳模型，因为所有基于现场的地下水建模工作都必然使用不完整且包含错误的数据集（例如，Table 9.1）。总会存在一些可能的合理模型，可以合理地模拟我们对模型旨在表示的真实世界系统的了解。因此，选择被认为是现实的最佳表示的模型将始终是主观的（Doherty and Hunt, 2009a,b），即使有无限的资源和时间可用。

这并不意味着所有模型都可能是可以接受的，也不是基于一时兴起选择“最佳”模型。相反，多个可能的合理模型的推论是更多不合理模型的数量更大。一个熟练的模型师会迅速辨别出那些死胡同，并专注于合理子集。因此，尽管主观因素存在于合理模型的家族中，但在这个领域之外的模型可以更客观地被丢弃。由于这些模型无法通过校准而失败，因为它们未能取得令人满意的历史匹配，使用了不合理的参数值，和/或不符合概念模型，因此可能被丢弃。

Haitjema (2015) 指出，校准的逻辑端点不能是找到真实模型，即包含场地完全准确属性的模型。逻辑端点甚至不是最佳模型，即使用最先进的方法从每个观测中挤出每一点信息的模型。相反，在实践中，建模的逻辑端点是一个适当的模型，即一个平衡着先进和逼真的表示与可用资源和时间的模型。适当模型的概念可以通过以下示例来说明。如果可以使用仅使用10%的财务资源来满足项目目标的80%，那么在不耗费额外资源的情况下，可以做出模型所设计来解决的问题的决策吗？未知20%的不确定性是否可以通过其他方式解决，例如工程安全系数？或者换句话说，是否值得花费剩余的90%的资源来尝试解决剩余20%的目标？适当模型的概念认识到对于许多需要建模的问题，

80%的答案可能足够了。然而，至少，适当的地下水流模型必须是对地下水系统的一种可防御的表示，最起码近似于观察到的大尺度地下水流方向和水头趋势。

9.3 校准目标

通常，模型师拥有多个（不完美的）观测数据，通常是水头和通量，它们共同给出了一个地点真实场地条件的部分快照。并非所有观测都同等确定；有些可能相对精确，而其他一些则明显是近似的。模型师从类似的条件/时间段中选择所有或其中一些观测作为校准目标。在历史匹配期间，将校准目标与模拟值进行比较以描述模型的拟合，并包含有关系统的硬知识。因此，要求模拟值与校准目标匹配会迫使模型对模拟中表示的条件至少做出与场地系统相应的响应。校准目标中包含的信息反过来会约束在历史匹配期间调整的模型参数。

包括几种不同类型的校准目标最大化了在校准期间可以考虑的信息量。至少，在历史匹配期间通常应使用水头和通量两种类型的校准目标，因为单独一种观测类型（例如，水头）无法在数学上唯一约束地下水流方程的逆解（Box 3.2，参见 Haitjema, 2006）。理想情况下，模型应使用尽可能多的可用观测类型，这些观测类型可以与模型输出进行比较（Hunt et al, 2006）。除了水头和通量之外，历史匹配的观测可能还包括流动追踪结果（第8章），如图9.2所示，钻孔流量测量、基于同位素组成的间接通量测量、温度和溶质浓度，以及来自遥感（例如，饱和土壤的发生）和地球物理学（例如，污染物扩散的程度）的观测。校准的目标之一是从所有可用的观测中提取最大的信息，同时平衡来自不同观测的潜在矛盾信息。尽管许多类型的目标都是可取的，但我们的讨论将集中在最低推荐且最常用的类型上，即水头和通量目标。

图9.2 对三个位置的湖水层与陆地补给地下水之间界面深度的历史匹配。通过使用水的稳定同位素的测量（观测到的）在现场确定了界面的位置，并通过模型中的流动颗粒跟踪（模拟的）进行了定位（修改自Hunt等人，2013）。

9.3.1 水头目标

压力头是地下水流动方程的直接输出，并且在大多数地下水调查中至少有一些头的测量数据可用。

理想情况下，头值为模型师提供了相对较多的在空间和时间上分布的观测数据（图7.11）。即使有大量的头部测量数据，也要注意头部数据存在不确定性。测量误差包括与水位测量设备的准确性相关的不确定性（表9.1），潜在的操作员误差以及由于井测点标高的测量不准确引起的误差。当现场头目标不位于网格或网格中的节点上时，插值误差会发生。通过使用一些图形用户界面（GUI）中包含的后处理算法，这些算法对模拟头进行插值以进行目标位置特定的比较，可以改善模拟和观测到的头的比较。头可以在具有部分穿透模型层或穿透多个模型层的筛子的井中测量（第6.2节）。长筛的井中测量的头可以用于与二维面积模型的垂直平均头输出进行历史匹配。然而，在一个给定的位置上测得的垂直分离的头测量更适合三维建模。此类数据是从嵌套和多级压力计中获得的，其中多个离散的测点对不同的标高开放（例如，Meyer等，2014年）。在给定位置上的测点之间的头的差异也可以处理为用作头差异目标。头差异目标可以增加头数据的信噪比，并且对于垂直渗透率的校准特别有用（Doherty和Hunt，2010年，第13页），但通常与未经处理的头目标一起使用。当多个测量在一段时间内显示头部的时间变化时，将单个头值用作目标时会引入瞬时误差（图7.1）。可以使用测量跨足对建模目标有意义的时间段的时间平均头目标来校准稳态模型（图7.2和7.3）。然而，在某些地方，头部可能在所选时间段内波动10多米，并且稳态模型是不适当的（第7.2节）。在瞬时模型中，可以从时间序列（图7.11）中计算出时间头差异目标，作为两个不同时间测得的观测头之间的差异，并且在瞬时模型中通常优于绝对头目标（Doherty和Hunt，2010年，第13页）。

头目标的不确定性通常以标准偏差（值与其平均值的差值的平方的平均值的平方根）或方差（标准偏差的平方）表达，围绕观察到的头值。头目标的不确定性也可以表示为报告值周围的95%置信区间（约两个标准偏差）。显然，关于上述类型错误的大小的信息有助于量化与头目标相关的不确定性。 verm缺 Surveying错误应在测量井的测点进行测量时记录；当对井进行头监测时，应估计和记录仪器和操作员的错误；需要井的施工细节以评估缩放误差，并且需要头测量的时间序列以评估时间误差。头目标的总体组合误差永远不会完全知晓；因此，模型师通常会在不详细分解所有不确定性组成部分的情况下，对头目标的确定性进行评估。

9.3.2 通量目标

流量观测包括各种类型的流动，如基流、泉水流、从失水溪流中渗透、向湖泊的地下水流入以及跨越水位的蒸散发，所有这些都可以用作校准目标。地下水通量到达和离开河流的空间综合值通常是通过河流流量数据或其他河流排放测量估算的。通量的点估计可以从直接的现场测量或使用现场数据和达西定律进行计算。通量也可以使用示踪剂间接估算（例如，McCallum等，2012；Gardner等，2011；Cook等，2008；Hunt等，1996；Krabbenhoft等，1994）。通常，模型师拥有的通量观测比头部测量要少得多。尽管如此，在校准过程中，问题域中不同位置的通量观测非常有帮助，因为它们揭示了模型中不同区域的过程。并非所有通量目标的位置在校准过程中都同等重要：例如，在模型域的最下游位置测得的基流测量通常非常重要，因为它整合了最大的模型区域，而上游的位置代表了模型域较小区域内的地下水流分布（Hunt等，2006年）。

对于瞬时模型，通量目标在适合建模目标的时间段内进行平均（例如，平均每月基流；使用流量持续时间/累积概率曲线进行定义）时最有用。用于平均的时间段应尽可能与头目标的时间平均时间段相对应。空间通量差异目标（在类似时间段内测得的不同位置的通量之间的差异）和时间通量差异目标（在不同时间点测得的同一位置的通量之间的差异）有助于最大限度地提取原始观测流数据中包含的信息。差异目标应尽可能与标准通量目标一起使用。

与头部目标类似，通量目标具有与之相关的测量误差，实际上它们的测量误差通常比头部大，因为在现场准确测量通量更加困难。河流流量目标中的瞬时误差通常相对较大，因为地表水流通常比地下水通量更具有时间变异性。对通量的间接估算涉及许多假设，这引入了通量目标的额外误差。因此，在实践中，每个通量目标都将有其自己的相关测量误差。

通量目标的不确定性通常以变异系数（标准偏差除以预期值或平均值）相对于观测值的值（例如，±20%）来表示。这种报告类型将不确定性标准化为通量的数量级，对于报告不同数量级的通量目标的不确定性很有用。

对于稳态模型，通常将变异系数分配给单个通量目标，以表达根据时间序列中通量测量的范围的不确定性。

与头目标类似，通量目标的不确定性也可以表示为报告值周围的95%置信区间（大约加上或减去两个标准偏差）。例如，图9.7（a）中的误差棒显示了稳态通量目标的不确定性。在可能使用现场数据来量化不确定性的情况下（例如，来自河流流

量计的时间序列数据），但在许多情况下，根据目标对建模目标的重要性使用专业判断来分配不确定性。

9.3.3 排名目标

并非所有目标对于建模目的都同等确定或重要（例如，Townley，2012年），也没有模型可以同等好地匹配所有校准目标。因此，有必要决定哪些目标最为重要。这是通过对目标进行排名来完成的，其中排名表达了模型师对在历史匹配过程中模拟特定目标的重要性的判断。模型师试图找到与排名较高的目标较好匹配的模型，并可能接受与排名较低的目标较差匹配的模型。

排名的目标集合是模型师对于校准以及更广泛地说，建模目标的重要性的单一最重要的表达。排名的目标影响对适当模型的确定以及使用最终校准模型进行的预测（第10章）。

从统计理论的角度来看，根据其测量误差对目标进行排名是一个主要考虑因素（例如，Hill和Tiedeman，2007年），而目标的测量误差是指定目标重要性的第一近似的推荐方法。

然而，这种初始排名通常会调整以反映与目标类型和位置相关的实际考虑因素（Doherty和Hunt，2010年，第12页）。例如，可能存在数百个一种类型的目标（通常是头部），而另一种类型的目标可能只有一个或几个（通常是通量和/或头差目标）。如果仅将测量误差用作排名标准，那么模型拟合将主要由大量头部值（头部通常）主导，这将意味着匹配所有头部目标比匹配较少的通量目标更为重要。同样，最相关于建模目的和预测的主要建模区域（近场）的头部和通量测量可能是最相关的。位于兴趣区域之外的模型域中分布的目标（远场）通常由于其位置而相对较不重要。因此，即使近场和远场目标的测量误差相同，它们也不被认为在找到最佳适当模型方面同等有价值。结果，远场目标被分配一个较低的排名。排名还可能包括对目标类型的考虑；例如，如果建模目的要求在近场通量目标位置进行未来通量的预测，模型师可能愿意在远场目标的头模拟中获得更好的模拟以获得感兴趣的通量目标的更好模拟。

最终，最佳适当模型是为系统提供最佳感兴趣预测的模型。因此，目标的排名应预见到预测模拟的需求（第10章）。因此，由于每个模型都由其目的的唯一性而特征化，因此没有普遍适用的目标排名方式；相反，人们认识到这种排名将始终包含依赖于专业经验和建模目标的主观元素。在历史匹配的第一阶段（手动试错校准；第9.4节）中，主观性是显而易见的，因为目标是根据重要性进行定性排名。在历史匹配的第二阶段（自动试错校准；第9.5节）中，目标使用数字权重（例如，表7.1）进行量化排名，但仍依赖于模型师的主观判断。

9.4 手动历史拟合

一旦选择并排名了校准目标，就会使用基于概念模型的一组初始参数值来执行地下水流模型。对于一些筛选模型和启发式建模练习，观察结果不存在的情况下（例如，Beven，2009年，第49页），第一次正演运行可能会产生足够的结果，以满足建模目标。在这种情况下，所有随后的工作都集中在预测和估计预测的不确定性上（第10章）。然而，通常需要多次运行才能获得可接受的历史匹配。历史匹配过程的第一步涉及使用手动试错历史匹配来测量和改善模型的拟合，其中模型师在每次正演运行后手动更改参数值并评估输出。

第二步使用计算机代码自动执行试错历史匹配（第9.5和9.6节）。在两个阶段中，都使用定性和定量方法对拟合进行评估。鉴于历史匹配的所有方面的重要性，我们首先讨论评估模型拟合的方法。