空间内插方法比较

编者语:本文是较为详细的空间内插方法比较的期刊文章,从各个空间内插的释义、操作步骤等各方面详尽的为各位讲解了何为空间内插法、如何使用、各类别比较。空间内插一般包括这样几个过程:①内插方法(模型)的选择;②空间数据的探索分析,包括对数据的均值、方差、协方差、独立性和变异函数的估计等;③内插方法评价;④重新选择内插方法,直到合理;⑤内插。

李新,程国栋,卢玲

来源:地球科学进展2000年6月

摘要:

空间内插可以分为几何方法、统计方法、空间统计方法、函数方法、随机模拟方法、物理模型模拟方法和综合方法。介绍了每一种方法的适用范围、算法和优缺点。指出没有绝对最优的空间内插方法,必须对数据进行空间探索分析,根据数据的特点,选择最优方法;同时,应对内插结果做严格的检验。开发通用空间内插软件、智能化内插以及加强相关基础研究将是空间内插研究的重点。

关键词:

空间内插;空间数据探索分析;地理信息系统

1空间内插

根据已知地理空间的特性探索未知地理空间的特性是许多地理研究的第一步,也是地理学的基本问题。常规方法无法对空间中所有点进行观测,但是我们可以获得一定数量的空间样本,这些样本反映了空间分布的全部或部分特征,并可以据此预测未知地理空间的特征。在这一意义上,空间内插可以被定义为根据已知的空间数据估计(预测)未知空间的数据值。其目标可以归纳为:①缺值估计:估计某一点缺失的观测数据,以提高数据密度;②内插等值线:以等值线的形式直观地显示数据的空间分布;③数据格网化:把无规则分布的空间数据内插为规则分布的空间数据集,如规则矩形格网、三角网等。

空间内插对于观测台站十分稀少,而台站分布又非常不合理的地区具有十分重要的实际意义。这些地区的常规观测常常不能满足要求,在这种情况下,利用有限的常规观测估计合理的空间分布,或尽可能地提高数据密度就成为迫切要求。在这些方面,缺值估计和数据格网化将发挥重要的作用。

(1)缺值估计。各种科学考察中形式多样的短期观测是提高数据观测密度的重要方式,无形中起到了加密台站的作用;而且由于这些考察常常到达人迹罕至的高海拔和极地等区域,有助于了解区域内观测变量的完整空间分布。但是,这些观测序列往往很短,短则数十天,长不过几年。如何利用周围台站的长序列观测资料和短期观测本身的信息,将观测变量插补到长序列是一个重要问题。

(2)数据格网化。规则格网能够更好地反映连续分布的空间现象,并对他们的变化作出模拟。现代地球科学模型和气候模型,如GCM(一般环流模型),都要求与GIS数据模型和遥感数据高度兼容的空间数据集。格网化的数据,尤其是规则矩形格网,已成为目前地学模型的主要数据形式。因此,对已知观测台站的观测数据进行空间内插,得到格网化数据是模型的第一步。

空间内插一般包括这样几个过程

[1]

:①内插方法(模型)的选择;②空间数据的探索分析,包括对数据的均值、方差、协方差、独立性和变异函数的估计等;③内插方法评价;④重新选择内插方法,直到合理;⑤内插。

因此,通过比较而选择一个合用的、适合于数据空间分布特点的内插方法是空间内插的关键。本文将空间内插分类为几何方法统计方法空间统计方法函数方法随机模拟方法物理模型模拟方法综合方法,通过比较研究,指出每一种方法的适用范围、算法和优缺点。

2空间内插方法比较

空间内插可依据:①确定或随机;②点与面;③全局或局部等标准分类(2~4)。本文依据内插方法的基本假设和数学本质.把空间内插分类为以下几种方法。

2.1几何方法

是最简单的空间内插方法。几何方法基于“地理学第一定律

[5]

的基本假设,即邻近的区域比距离远的区域更相似。几何方法的优点是计算开销少,具有普适性,不需要根据数据的特点对方法加以调整。当样本数据的密度足够大时,几何方法一般能达到满意的精度。几何方法的最大问题是,无法对误差进行理论估计。最常用的几何方法有泰森多边形(最近距离法)和反距离加权方法。

2.1.1泰森多边形(最近距离法)

泰森多边形用于生成“领地”或控制区域。实际上,尽管泰森多边形产生于气候学领域,它却特别适合于专题数据的内插,因为它生成专题与专题之间明显的边界,不会有不同级别之间的中间现象。泰森多边形的算法非常简单"未采样点的值等于与它距离最近的采样点的值。

2.1.2反距离加权方法

反距离加权法是最常用的空间内插方法之一。它认为与未采样点距离最近的若干个点对未采样点值的贡献最大,其贡献与距离成反比。可用下式表示:

式中,Z是估计值,Zi是第i(i=1,…,n)个样本,Di是距离,P是距离的幂,它显著影响内插的结果,它的选择标准是最小平均绝对误差。Husar等

[6]

的研究结果表明,幂越高,内插结果越具有平滑的效果。

2.2统计方法

其基本假设是,一系列空间数据相互相关,预测值的趋势和周期是与它相关的其它变量的函数。统计方法的优点是计算开销不大,有一定的理论基础,能够对误差作出整体上的估计。但是,其前提是一定要有好的采样设计,如果采样过程不能反映出表面变化的重要因素,如周期性和趋势,则内插一定不能取得好的效果

[1,7]

。常用的统计方法有趋势面方法和多元回归方法。

2.2.1趋势面

趋势面根据有限的观测数据拟合曲面,进行内插。它适用于:①能以空间的视点诠释趋势和残差;②观测有限,内插也基于有限的数据。当趋势和残差分别能与区域和局部尺度的空间过程相联系时,趋势面分析最有用

[8]

趋势面方法可以被定义为:

式中,y是n*1维矩阵,对应于n个样本;A是n个样本的坐标矩阵;ϴ是趋势面参数矩阵。A和ϴ依赖于趋势面的次数。趋势面的次数是它最重要的特征。

e是残差,通常是一个独立随机变量。当残差是随机独立时,统计检验有效;但实际上,趋势面中的残差常是自相关(特别是趋势面的次数较低时),因此,检验是显著有偏差的。残差的空间自相关可以用随机过程模型模拟。由于趋势面的以上特性,它的目标有时并非最佳拟合,而是把数据分成区域趋势组分和局部的残差。

2.2.2多元回归

在各种统计方法中,使用较多的是回归分析,其特点是不需要分布的先验知识。

多元回归在数学形式上与趋势面很相似,但是,它们又有着显著的不同。首先,在趋势面分析中,A是坐标矩阵,而在回归分析中,它可以是任意变量。其次,在趋势面方法中,模型的拟合严格地遵从自常数、一次、二次、立方等的顺序,主要的问题是确定模型的次数,因此,趋势面分析有内在的多重共线性问题;而在多元回归中,尽管也存在多重共线性,但它并非内在的,可以通过逐步回归解决,因此,相对于趋势面的选择次数,多元回归的核心问题是选择变量(主成分分析等方法有助于选择变量)和区分模型。

2.3空间统计(Geostatistics)方法

空间统计又称地质统计学,于20世纪50年代初开始形成,60年代在法国统计学家Matheron的大量理论研究工作基础上逐渐趋于成熟

[9,10]

。其基本假设是建立在空间相关的先验模型之上的。假定空间随机变量具有二阶平稳性,或者是服从空间统计的本征假设(intrinsic hypothesis)

[1,11-15]

。则它具有这样的性质:距离较近的采样点比距离远的采样点更相似,相似的程度、或空间协方差的大小,是通过点对的平均方差度量的。点对差异的方差大小只与采样点间的距离有关,而与它们的绝对位置无关。空间统计内插的最大优点是以空间统计学作为其坚实的理论基础,可以克服内插中误差难以分析的问题,能够对误差做出逐点的理论估计;它也不会产生回归分析的边界效应。缺点是复杂,计算量大,尤其是变异函数(variogram)是几个标准变异函数模型的组合时,计算量很大,另一个缺点是变异函数需要根据经验人为选定。空间统计方法以Kriging及其各种变种(Cokriging)等,为代表。

2.3.1Kriging内插

(1)Kriging内插的公式

Kriging内插由南非地质学家Krige发明,并因此而命名。Matheron

[16]

给出了Kriging的一般公式。Kriging内插的公式为:

式中z(xi)为观测值,它们分别位于区域内xi位置;x0是一个未采样点;λi为权,并且其和等于1。即

选取λi,使

^

z(x0),的估计无偏,并且使方差

^

σ

2

e小于任意观测值线形组合的方差。

最小方差由下式给定:

它由下式得到:

式中,γ(xi,xj)是Z在采样点xi和xj之间的半方差(semi-variance),γ(xj,x0)是Z在采样点xi和未知点x0之间的半方差,这些量都从适宜的变异函数得到。φ是极小化处理时的拉格朗日乘数。

估计半方差是一个较为复杂的过程,这一过程称为空间数据探索分析(ESDA)。

(2)空间数据探索分析(ESDA)

对于Kriging内插而言,空间数据探索分析的目标是建立半方差γ(h)和点对之间的空间距离h之间的关系,即变异函数。

由于空间统计的本征假设可以表示为以下两个公式:

●任意两个距离为h的两点间的差值的数学期望为0:

●任意两个距离为h的两点间的差值的方差最小:

因此,由下式估计半方差γ(h):

这一关系即变异函数。它提供了内插、优化采样的有用信息。Kriging内插的第一步是根据样本找到适合的变异函数理论模型。最常用的变异函数模型有:nugget、球面、指数、高斯、阻尼正弦、幂和线形模型。其中,前几种模型在一定的范围内达到极大方差,而线形模型的方差增长没有极限。以下是几种基本变异函数的形式

[1,17]

,这些变异函数的特性分别是:

●Nugget模型 缺乏空间相关。

●球面模型 空间相关随距离的增长逐渐衰减,当距离>θ后,空间相关消失。

●指数模型 空间相关随距离的增长以指数形式衰减,相关性消失于无穷远。θ表示距离,在此距离上95%的变量的可变性趋于稳定。

●高斯模型 空间相关随距离的增长而衰减,相关性消失于无穷远。曲线起始一段的形状是抛物线,表示变量的空间变化非常平滑。

●阻尼正弦模型 阻尼正弦模型适宜于周期性变化的空间变量,但其变化强度随距离的增长而衰减。θ表示周期。

●线性模型 空间可变性随距离的增长而呈线性地增长,不会在某一距离稳定下来。

变异函数的形式是内插质量的关键。需要注意的是,由于不同的区域有不同的空间模式,因而也就有不同的变异函数。而空间内插都有一个隐含的假定,即空间是连续的,因此,在选择变异函数模型之前,检查数据以确定空间连续性是十分必要的。

2.3.2Cokriging内插

Cokriging(共协Kriging)内插的基本原理与Kriging相同,但它通过考虑一个以上变量而优化估计;内插由于考虑了变量之间的关系而得到改善。例如,在估计温度、降水等气候变量时,海拔高度是附加的重要变量。Cokriging内插包括以下过程:①确定多个观测值之间空间相关的特征;②借助于变异函数和交叉变异函数(cross-variogam),对相关建模;③利用这些函数估计内插值。

除公式(7)、(8)外,Cokriging引入一个新的假定,即两个变量之间差值的方差最小。

式中,Z

k

(x)是与估计值Z(x)相关的第k个变量。

Cokriging中引入交叉变异函数,它是两个不同变量之间的相关随距离变化的函数。它与简单变异函数不同,前者的形式是方差,因此总为正或零;而后者的形式为协方差,因此可以为正、负或零。如果两个变量向相反的方向变化,交叉变异函数为负;如果两个变量的变化相独立,交叉变异函数为零。

交叉变异函数的形式为:

Cokriging内插的关键是估计交叉变异函数,以分析变量自身以及变量之间的空间相关。Cokriging的其它过程都是与Kriging一致的。

2.4函数方法

是使用函数逼近曲面的一种方法。函数方法在空间内插领域大多用于一些特殊场合,如利用高密度的高程数据产生等高线、为提高格网数据的空间分辨率而内插数据等。对于利用有限的观测数据进行缺值预测和内插格网,函数方法多不适合,因为它难以满足内插的精度,也难以估计误差。函数方法的特点是不需要对空间结构的预先估计、不需要做统计假设。缺点是难以对误差进行估计,点稀时效果不好。常用的函数方法有:傅里叶级数、样条函数、双线性内插、立方卷积法等。

2.4.1傅里叶级数

对于周期性的数据序列,如海浪,可以利用傅里叶级数将它们分解为正弦波和余弦波。

2.4.2样条函数方法

样条函数是使用函数逼近曲面的一种方法。样条函数易操作,计算量不大,它与空间统计方法相比具有以下特点,不需要对空间方差的结构做预先估计;不需要做统计假设,而这些假设往往是难以估计和验证的;同时,当表面很平滑时,也不牺牲精度。

样条函数适合于非常平滑的表面,一般要求有连续的一阶和二阶导数;它适合于根据很密的点内插等值线,特别是从不规则三角网(TIN)内插等值线。样条函数的缺点是难以对误差进行估计,点稀时效果不好。

样条函数的种类很多,最常用的有B样条、张力样条

[18]

和薄盘样条等

[19]

2.4.3双线性内插

双线性内插和立方卷积法都主要用于网格数据的内插(重采样),一般很少用于根据离散数据内插空间分布。它使用与待估计网格距离最近的4个网格值,线性内插获得新的网格值。双线性内插方法的优点是数据重采样后的结果较为平滑,没有阶跃效应,同时具有较高的精度。缺点是网格被平均化,具有低频滤波的效果;边缘被平滑,有些极值丢失了。

2.4.4立方卷积法

是最常使用的网格数据内插方法之一。它使用与待估计网格距离最近的16个网格值,根据立方卷积公式计算输出

[20]

。立方卷积公式有几个不同版本,有的产生低通滤波的效果,有的产生高通滤波的效果,较好的方法应该在高频信息和低频信息的取舍间取得平衡。立方卷积法的优点是采样结果的统计信息(均值和方差)与原数据的相似程度比其他采样方法高。缺点是数据值被改变,因此不能用于类型数据(专题图)的内插。立方卷积法特别适宜于显著改变了网格尺寸,但要保持原数据统计特性的数据内插,如数字高程数据的重采样。

2.5随机模拟方法

其基本假设与空间统计方法不同,随机模拟认为地理空间具有非平稳性

[21]

,是空间异质的。它通过空间分布现象的可选的、等概率的、数值表达(地图)来对空间不确定性建模

[22]

。对应不确定性,可以接受可选的多个答案。与空间统计方法不同,随机模拟方法不是产生唯一的估计结果,它产生一系列可选的结果,它们都与实际数据一致,而且相关模型将它们联系起来。随机模拟方法的最大优点是定义了各种随机变量之间的空间相关,这类相关可以根据相邻数据把高度不确定性的先验分布更新为低不确定性的后验分布。缺点是建模困难,计算量大。常用的随机模拟方法有高斯过程、马尔科夫过程、蒙特卡罗方法、人工神经网络方法等。

2.6 确定性模拟

其基本假设是变量的空间分布受物理定律控制,因此,可以使用物理模型或半经验、半物理的模型模拟空间分布。对于这一类内插常常是使用有限的观测值获得一些必须的经验参数,再把这些参数代入到物理模型之中。典型的例子是,GCM是一个纯物理模型,但它的参数化使用了经验方法

[23]

。在山区气候变量的内插过程中,也大量使用这种方法

[24,26]

。确定性模拟的最大优点即它的确定性,它不依赖或很少以来观测样本。但空间现象是否可以被确定性地预测以及我们是否可以持这一乐观的信念十分值得怀疑。

2.7综合方法

是以上几种方法的综合。对于空间变量,一般能够用不同的方法分别对结构化变量、随机变量和观测误差(残差)建模。王劲峰

[27]

把空间变量分解为:

空间变量=趋势+周期+随机+噪声(12)

并分别用统计方法、谱函数、人工神经网络和随机过程建模描述相应的成分。

综合方法还适宜于能够得到辅助性数据,如遥感数据的场合。通过从辅助性数据中提取空间模式,在合理的数据结构,如四叉树的支持下,划分空间同质的区域,从而逼近最佳的预测值

[
28]

3结论与建议

3.1结论

(1)空间内插可依据其基本假设和数学本质分类为:几何方法、统计方法、空间统计方法、函数方法、随机模拟方法、物理模型模拟方法和综合方法。

(2)空间内插是极为重要的GIS空间分析方法。对于观测台站稀少,而测点分布又极不合理的地区,空间内插是研究这些区域空间变量空间分布的基本方法,是建立空间模型的前提之一。

(3)空间数据探索分析是分析地理数据的重要工具,它的一个重要目标是估计空间变量的变异函数。变异函数反映空间相关随距离变化的特征,可以用几个基本变异函数模型描述。根据变异函数,可以判断数据是否具有平稳性,是否符合空间统计的本征假设。

(4)本文比较了主要的空间内插方法,分析了各种方法的假设、适用范围、算法和优缺点,并目重点介绍了空间统计方法。必须指出,对于众多的空间内插方法而言,没有绝对最优的空间内插方法,只有特定条件下的最优方法。因此,必须依据数据的内在特征。依据对数据的空间探索分析,经过反复实验,选择最优的空间内插方法。同时,应对内插结果做严格的检验。

3.2对空间内插研究的建议

(1)开发通用空间内插软件。空间内插是地理学的基本问题,也是GIS重要的空间分析方法。但现有的GIS软件中包括的空间内插方法都很少,ARC/INFO中只有趋势面、Kriging和一些特定用途的函数方法,而且它们的界面不友好,难以使用。因此,应开发具有以下特点的通用空间内插软件:①包括尽可能多的空间内插例程;②智能化的人机界面,提供友好的人机界面,通过一系列有关用户意图、目标和数据特性的问题,引导用户,使用户选择最适宜的方法;③良好的数据库接口.与GIS的兼容性。利用ODBC(开放数据库互联)等技术手段从各种关系数据库中析取所需数据,生成与GIS兼容的空间数据和属性(表)数据。

(2)智能化。智能化的一个目标是减少内插中的主观性。例如,变异函数模型的选择具有很大的经验成分,变异函数的拟合往往是依据经验,反复实验的结果。应通过人机交互减少这种主观性。智能化的另一个目标是通过人为干预,在内插中考虑非地带性因素的影响。如地下水等埋深线是与河流平行的,地质现象的内插必须考虑断层,人为干预可以对这些非区域化的因子建模。

(3)加强基础研究。空间内插方法都建立在一定的假设基础上,这些假设都有一定的局限性。在这些假设中,我们往往回避的是空间不连续性和空旧异质两个问题,如何将地理空间分解为不同区域?分区后是否存在界面处的不连续现象?如何对空间异质的区域建模都是亟需回答的重要问题。

参考文献:

[1] Haining R.Spatial Data Analysis in the Social and Environ mental Sciences[M].Great Britain:Cambridge University Press,1990.291~312.

[2]Collins FC.A comparison of spatial interpolation techniques in temperature estimation(EB/OL). http://www. negia. http://ucsb.edu/conf/SANTA FECD-ROM/sf papers/collins fred, collins.html.1999-01-13/1999-10-25.

[3] Waters N M.Unit 40-spatial interpolation 1CEB/OL)http://www.gisca.adelaide.edu.au/kea/gisrs/ncgia/u40.html.1999-03-12/1999-10-25.

[4] Waters N M.Unit 4l-spatial interpolation 2[EB/OL]http://www.gisca. adelaide. edu.au/kea/gisrs/ncgia/u41. html,1999-03-12/1999-10-25.

[5] Bunge W.Theoretical Geography[M].Lund;Lund Studies inGeography,1966.

[6] Husar R B. Falke S R.Uncertainty in the spatial interpolation of PM10 monitoring data in Southern CaliforniaCEB/OL].http://capita.wustl.edu/CAPITA/CapitaReports/CaInterpCaINTERP.HTML.1997-03-03/1999-10-25.

[7]Mark D M. Some problems with the use of regression analysis

in geography (A). In:Gaile G L. Spatial Statistics and Mod elsCCO.Netherlands:D Reidel Publishing Company,1984191~199.

[8] Agterberg F P.Trend surface analysis [A]. In:Gaile G LSpatial Statistics and Models(C].Netherlands:D Reidel Publishing Company,1984.147-171.

[9]Journel A G,Huijbregts Ch.矿业地质统计[M).侯景儒,黄竞先.译北京冶金工业出版社1982

[10] 王政权地质统计学及在生态学中的应用M北京科学出版社.1999.

[11] DeutschC V.Journel AG.GSLIB,Geostatistical SoftwareLibrary and User's GuideCM].New York: Oxford Universi ty Press,1998.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值