辛普森悖论的原因是样本数量不匹配。TreatmentA对大小结实治愈率都高过TreatmentB,但是总的治愈率却低于B。
当添加了Age后,biking和cholesterol的关系从正相关变为了负相关。
correlation正相关,causation因果关系
从上面冰激凌的例子解释就是,冰激凌的销售和晒黑是correlation,正相关,但是冰激凌并不导致晒黑人数增多,而是太阳和晒黑才是真正的因果关系,它可以影响晒黑。
G表示graph,P表示path,在path上相互独立,不一定在graph相互独立。
Y是Xi的non-descendant 非后代,但是Y与Xi的父辈有关。
X4就不可能独立于X1,因为X1是它的父亲节点。我们不能说X1对于X4是独立的,但是可以说X4对于X1来说,是独立的。因为X4没一条path到达X1.
S将X和Y分离。
x4属于S,所以X和Y不是被S(x1,x4) d-separate的。所以要把x4去掉。