导读:本文我们来讨论有关相关性和因果性的话题。
作者:徐晟
来源:大数据DT(ID:hzdashuju)
相关性体现了两个事物之间相互关联的程度。比如房屋面积越大,房价就越高,改变其中一个变量(房屋面积)会引发另一个变量(房屋的价格)朝着同样的方向变化,这两个变量就存在正相关性。反之,如果一个变量的改变会让另一个变量朝着相反方向变化,就表明它们有负相关性,比如海拔高度和大气压的关系。
不过,数据之间通常只能呈现关联性,而很难直接体现因果性。人工智能就是一个典型代表,计算机只能发现数据之间的联系,它不负责解释原因。
再来看看因果性。人其实特别喜欢归因,一旦看到某种现象,就总喜欢把这个现象归到某些原因上。这点也体现在人类语言中。比方说,家长常常告诉孩子:“你不好好学习,就会挂科。”这个表述容易让人误以为“好好学习”和“挂科”具有因果关系。
可实际上,家长只是想表达,前者增加了后者发生的可能性,不是必然会让后者发生。日常生活中人们已经习惯使用大量口语化的因果句式,可它们并不一定都有因果关系。
处理统计学问题时,我们必须遵守一个基本原则:数据的相关性并不代表因果性。两个变量存在相关关系,并不代表其中一个变量的改变是由另一个变量变化引起的。
举例来说,20世纪50年代,人们观察大气层二氧化碳的含量和肥胖症人口的数量变化,发现两个数据都出现了明显的增长。似乎二氧化碳含量的增加会导致人类的肥胖。
但实际原因是,那段时间汽车业开始发展,汽车尾气排放增加,导致了大气中二氧化碳浓度上升;同时越来越多的人使用汽车作为代步工具,人们走路活动的时间变少,自然也就越来越胖。
类似的案例还有很多。有人说喝啤酒会导致肚子变大,但我们不能证明喝酒是导致肥胖的原因,更有可能的是爱喝酒的人往往饮食不规律、不爱运动,导致肚子变大;公鸡打鸣与日出高度相关,但它显然不是日出的原因;医院的死亡率比其他地方都高,并不表示医院是一个危险的地方。
有时&#