基于梁氏—克里曼信息流的因果分析理论及应用——应用部分

在上一篇博文:
基于梁氏—克里曼信息流的因果分析理论及应用——理论部分中,我简单介绍了一些关于因果分析的理论知识,也给出了梁氏-克里曼信息流的一些最终结论。艰涩的理论总是让人着迷——因为不懂,反而更显得高深莫测。在这里我必须指出,任何理论的最终目的都是为了科学应用打下基础,很多时候,并不是理论研究不够深,而是应用不够多。理论与应用间的时间差有时是如此之大,不免让人觉得可惜。
幸运的是,本文中梁氏-克里曼信息流的提出者,梁湘三教授是哈佛大学应用数学与地球动力学出身,他本人也十分重视理论的应用部分,他的论文 Exploring the Big Data Using a Rigorous and Quantitative Causality Analysis ,
Unraveling the cause-effffect relation between time series,
On the causal structure between CO2 and global temperature,都是其信息流理论的应用。
下面我将根据梁教授的文献,简单翻译、总结信息流的应用,希望能借此加深对梁氏信息流特点的理解,打开思路,将信息流理论更好地运用于笔者目前所关注的气象灾害与气象生态领域。

应用

对于信息流理论的应用,主要可分两块:对相关数学物理理论的证明应用(eg. baker transformation, Kaplan-Yorke map, Henon map)与在经济、海洋、气象领域的应用。
笔者并非数学物理专业出身,对相关数学物理理论知之甚少,对这部分感兴趣的人可以自行阅读梁教授在2013年对其信息流成果的一篇综述 The Liang-Kleeman Information Flow: Theory and Applications

时间序列间的因果关系

以下内容均总结与梁教授的论文:
Unraveling the cause-effffect relation between time series,
分析两个时间序列的因果关系,这是因果分析最常见的应用。因为两组数据通常都是以时间序列的形式出现的。然而这在数据科学中却是一个极大的挑战。目前在许多学科,尤其是气象科学中,都是以时滞相关关系(time-lagged correlation)代替因果关系,然而,我在上篇博文中就已经提到,相关与因果并不等同,更多时候,相关只是我们追求简单高效的方法的一种替代手段。
要想更深层次的了解事物背后的物理机制,因果分析是不可缺少的,目前常用的因果分析方法都有其不足之处,无法较好满足气象科学的要求,为此,我们考虑使用被严格定义的梁氏-克里曼信息流分析因果的传递。
梁氏-克里曼信息流最先研究的是一个给定的动力系统下,信息流的传递问题,那么,在没有动力系统,仅仅依靠两个时间序列数据条件下,这个概念是否仍可沿用?这两个问题分别被称为“forward problem” 和 “inverse problem”。
从正面解决 “inverse problem”往往十分困难,为此,我们首先需要提出合适的科学假设,选择合理的动力模型。通常情况下,我们都会选择线性模型,就算一个系统本身非常复杂,在它的初始阶段也仍然是满足非线性的。
在上篇博文中我已经给出了二维线性系统下梁氏信息流的传递速率,即:
在这里插入图片描述
为了验证这个公式,梁教授也给出了一些示例。
考虑一个二维随机微分方程:
在这里插入图片描述
显然,X2驱动着X1,反之则不然。这是一个典型的因果分析问题:系统的一个组成部分引起另一个变化,但后者并没有反馈给前者。现在,我们使用公式对其证明。取时间步长Δt=0.001s,迭代100000步,计算结果如图1:
在这里插入图片描述
可以看到,正如预期的那样,T1→2=0,说明2不依赖1变化,相应地,T2→1在平稳后接近于常数0.11。
同样地,对于以噪声为主导的系统,只要时间序列的跨度足够的长,其因果关系也十分可信。比如:
在这里插入图片描述
如果序列跨越1000个时间单位或更长,则可以使T2→1和T1→2的估计相当准确(T2→1,T1→2)=(0.116,0.0169)与真实结果(0.115,0)。
由于在自然中,绝大多数都是非线性的复杂系统,因此,系统中的单向因果关系往往也是非线性的,尽管如此,梁教授已经证明,即使因果关系是高度非线性的,使用上述线性假设推导出的公式也可以很好的判断因果关系。

现实的应用——ENSO与IOD

ENSO(El Niño-Southern Oscillation)即著名的厄尔尼诺-南方涛动现象,是发生于赤道东太平洋地区的风场和海面温度震荡,低纬度的海-气相互作用现象,在海洋方面表现为厄尔尼诺-拉尼娜的转变,在大气方面表现为南方涛动。
与之对应的,IOD(Indian Ocean Dipole)印度洋偶极子也是一种海温异常的现象,只不过位置不同——它由印度洋两个区域(可能是单极,或双极)的海面温度差定义,西极在西印度洋的阿拉伯海(10°S-10°N,50°E-70°E),东极在印度尼西亚南部东印度洋(10°S-0°,90°E-110°E)。两种都是海气耦合的现象。
有几种测量El Niño强度的指标,最受欢迎的指标是Niño3和Niño4,IOD则通常由偶极模式指数(DMI)来衡量。近年来,这两者间的关系引起不少讨论。使用梁氏信息流对这二者进行因果分析,使用的数据是
1958.01-2010.09的月度数据,具有633个时间点,将公式应用于DMI和Niño4会产生从El Niño到IOD的信息流:TE→I = 6,以及从​​IOD到El Niño的信息流:TI→E = 13(单位:10的负三次方纳特/月)。
使用Niño3可以得出类似的结果:TE→I = 6且TI→E =16。也就是说,Niño和IOD是互为因果的,并且因果关系是不对称的,从后者到前者的因果关系大于其前者到后者。
此外,不同的迹象表明,El Niño趋于使得IOD稳定,而IOD趋于使El Niño更加不确定。
梁教授还计算了DMI与热带太平洋海温(SST)、Niño4与印度洋海温间的因果关系,都得出了与上述相似的结论,得出的结果也令人鼓舞:类似于I0D的模式在index-SST因果模式中显示出来,在以往的数据分析中却没有出现。这无疑为梁氏信息流的实用性提供了有力的证明。
在这里插入图片描述
在这里插入图片描述

大数据的因果关系

(以下内容可以不看,纯属废话)
在上篇博文中我曾提到,在大数据时代下,因果分析似乎逐渐没落。这并不难理解,与马克思提出的社会生产基本矛盾——生产力与生产关系的矛盾类似,科学研究中也存在着,我把它简单叫做理论与应用间的矛盾。
在某些学科中,比如物理、数学,这些学科的理论研究已经远远超出了人类目前科技所能运用的限度,天才们在实验室里写写算算,最终证明出了世上只有少数几个人才能看懂的定理,谁也不知道它最后有什么用处;而在笔者目前学习的气象科学中,科技的发展已经超过了理论的需求,在数值预报的课上老师告诉我们:数值预报所需的三大条件:动力气象理论、计算机、观测数据,而现阶段计算机、人工智能的发展已经远远超过了现有模式的需求,于是人们转而走向另一个方向:机器学习、人工智能、大数据挖掘……忽视气象条件形成背后的物理机制,试图通过一些黑箱理论找到最准确的结果。
不同学科间理论与应用的矛盾因学科特点各有差异,我们无法评判优劣,而气象原本就是出于服务目的而开创的学科,比起其他学科更加重视结果也无可厚非,即使如此,过多忽略背后的物理机制而关注应用,很容易被扣上“实用主义”、“功利”的高帽,若过多重视理论,又会被批评“理想主义”、“幼稚”。
有个有趣的现象:明明绝大多数人都只会看着地上的六便士,却喜欢时不时赞美月亮(好像他真的看过似的);明明大部分都更喜欢踩在实处,却偏要以“我在仰望着星空”而自居。也许,是在月光照耀下的六便士更加迷人一些吧。
不论如何,我想大家都会同意,理论和应用应当同时进行最佳,毕竟,我们既不能称得上是完全的功利,也做不到纯粹的理想主义,大多数人应该同我一般,夹在中间——“狡猾的中庸”、“保险的折中主义”。
综上,即使在因果分析没落的现在,我们仍然可以找到充足的理由去尝试它,毕竟它代表着相关更深一层的研究。梁湘三教授在其论文 Exploring the Big Data Using a Rigorous and Quantitative Causality Analysis中,介绍了梁氏信息流在大数据下的因果分析应用。

现实的应用——中日美GDP

同样的,在开始现实的应用之前,梁教授先给出了一些简单测试,看其是否有望在大数据中使用。
在这里插入图片描述
在上式中,Z未知,而梁氏因果仍能较好的找出存在隐藏流程的因果关系,这也为将其用于一般数据分析提供依据,并有望在新的大数据科学中发挥作用。
以中日美三国在1960-2014每年GDP为例,说明梁氏—克里曼信息流对如何提取数据背后信息。
在这里插入图片描述

Fig. Causalities (absolute information flow rates) between China and USA (a), between China and Japan (b), and between USA and Japan ©. Units: nats/yr.
首先看图(a)。由于总体较小,大多数值在80%的水平上都不显着。但是数值较大的,中国→美国是有意义的。也就是说,在此期间,中国对美国经济的影响要大于美国对中国经济的影响。考虑到在那个时期中国对西方世界还不够开放,这确实是较有道理。
图(b)也是这种情况。使图(b)与图(a)完全不同的是,在90年代初,日本对中国的影响很大,超过了相反方向的因果关系。而这也可以找到根据:在90年代初期,西方世界出于政治原因对中国实施了严格制裁,而日本没有加入。在那个特定时期,中国不得不大量依赖日本,从而导致日本对中国的主导因果关系。
对图©的解释需要对两国特定历史时期的政治经济有较高的了解,但我们也不难看出,两国之间一直较强,这也可以进一步解释为什么日本和美国的经济间总是有着高度相关。

现实的应用——二氧化碳与全球温度

以下内容来自Adolf Stips, Diego Macias, Clare Coughlan, ElisaGarcia-Gorriz& X. San Liang2016年在SCIENFTIC REPORTS上发表的论文:
On the causal structure between CO2 and global temperature
众所周知,全球变暖与温室气体的关系密不可分,我们早已确定CO2将导致全球变暖的后果。这种单向因果关系也早已被确认。但除了温室气体外,其他人为原因造成的全球变暖不确定性较大,导致无法精确量化温室气体影响的引起的温度变化,因此可能会高估当前全球变暖的程度。为此,测试不同因素与全球变暖间的因果关系将有利于IPCC的评估。
使用信息流的概念,能够确定出人类活动与全球变暖间固有的单向因果关系,在归去150年中,自然因素对全球温度变化贡献很小,自1960以来,人们就已经发现人类的影响尤其是通过二氧化碳辐射强迫的影响是巨大的。
在这里插入图片描述

代码

在梁老师的南京大气海洋动力学实验室可以下载到相关matlab代码,共有三部分:信息流计算、置信区间检验、示例,代码有着详细的注释,在这里我不多加赘述。

总结

总体来看,梁氏信息流的因果分析有着其他因果分析方法没有的优点,它基于一个严格的物理证明,从而可以较好地满足我们的“零因果”准则。而它的表现形式也是十分的简洁,即使在线性的假设条件下。得出的结果也使人满意,十分适用于气象领域中。同时,在生态领域中有着一个经典算法——收敛交叉映射算法确定复杂生态系统中的因果关系,这两者间的结果是否会有较大的差异?体现在哪里?也比较令人期待。
总体而言,算法的提出总要经历 提出→理论证明→理论检验→实际检验→推广的过程,希望这两篇总结能帮之后的人理清一些思路。

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值