因果关系不能被简化为概率。不能使用概率提高来定义因果关系,如X提高了Y的概率,就说X导致了Y。如:鲁莽驾驶会导致交通事故,吸烟引发肺癌等。前者只是增加了后者发生的可能性,而非必然会让后者发生。如同啤酒和尿布,也如同冰激淋热销与犯罪率提高一样,都属于相关,还不能证明是因果。建构表达式P(Y|X,K=k)>P(Y|K=k),其中K代表背景变量。事实上,如果我们把温度作为背景变量,那么这个表达式的确适用于冰激凌的例子。例如,如果我们只看温度为30℃的日子(K=30),我们就会发现冰激凌的销售和犯罪率之间不存在任何残留的关联。只有把30℃的日子和0℃的日子进行比较,我们才会产生概率提高的错觉。
条件概率只能表达我们观察到了X,那么Y的概率就提高了,不能表达为X提高了Y的概率。因为可能X和Y都是果,真正的因是Z,是Z的变化导致X提高,同时也是Z的变化导致了Y的提高。条件概率只是因果关系的第一层,即关联,通过数据的观察,发现了某种关联,还不能确定是因果。
如果P(Y|do(X))>P(Y),那么我们就可以说X导致了Y。但这个对比是困难的,如一个人没有抽烟的时候,没得肺癌,抽烟了,得了肺癌,可以说抽烟导致了肺癌,但抽烟导致肺癌的这个关系的概率就不得而知了,因为还有很多其他的因素,毕竟do抽烟的同时也do了很多其他的事情,比如环境,比如饮食习惯,行为习惯等等。
贝叶斯之父的这段话让我本以为用贝叶斯网络来做因果推断的想法差点颠覆&#