当前的机器学习基本上可以算是统计机器学习问题,也就是通过大量的数据学习到一些隐藏的patterns,从而得到数据与数据之前的相关关系,进而进行目标检测、追踪、知识问答等处理。很自然的一个问题就是,既然机器学习当前主流是以统计规律得到的相关关系为主,那么我们为什么要研究因果关系呢?
以下将以一个经典的问题 – Yule-Simpson’s Paradox (辛普森悖论) 作为分析。我们来看一个例子:
在一项试验中,我们研究某种处理对人存活率的影响,得到了下面的这张表:
所有人 | |||
---|---|---|---|
存活 | 死亡 | 存活率 | |
实验组 | 20 | 20 | 50% |
对照组 | 16 | 24 | 40% |
通过上述统计实验表明,我们似乎可以得出的结论是:上述的‘处理’对人的存活率有正向的作用。然而,有些细分的数据让我们困惑,研究者又将实验结果按照不同的性别(男性/女性)进行了这种‘处理’对人存活率影响的分析,统计结果如下:
男性 | |||
---|---|---|---|
存活 | 死亡 | 存活率 | |
实验组 | 18 | 12 | 60% |
对照组 | 7 | 3 | 70% |
女性 | |||
---|---|---|---|
存活 | 死亡 | 存活率 | |
实验组 | 2 | 8 | 20% |
对照组 | 9 | 21 | 30% |
(上述数据参考:Pearl, Judea. Causality. Cambridge university press, 2009.)
我们惊讶的发现,这种‘处理’无论是对于男性还是对于女性,都会降低存活率,这个与上面的结论截然相反。上述现象被称之为“辛普森悖论”,也就是:变量X和Y在边缘上存在正相关,但是给定另外变量Z,在Z的每一个水平上,X和Y都存在负相关。
上述例子中,X就是实验处理,Y是存活率,而Z则是性别。相信量化的对应并不难。虽然上述例子是伪造的,但是实际上辛普森悖论是广泛存在的,尤其是在传染病学研究传染源领域:比如吸烟与患癌的关系----是否存在中间变量Z(基因),有该基因的人更容易吸烟,同时该基因本身易发生癌变。
通过这个例子表明,实际上统计规律有时并不那么靠谱,我们需要建立起数据之间的因果联系,这也是因果推理在机器学习中存在的价值。接下来我将探讨一下如何进行可靠的因果推理及与其息息相关的反事实推理。