导读:困扰统计学家60多年的魔咒,时至今日也没有得到彻底解决。
作者:徐晟
来源:大数据DT(ID:hzdashuju)
在做重大决策时,我们总会参考一些统计数据,比如高考前关注学校的录取率,择业时参考各个行业的就业率等。统计数字可以帮助我们比较这些对象的优劣,做出更加合理的决定。但有时,统计数字并不靠谱,基于统计数据的因果推断甚至会出错。
举例来说,假设张三想去医院看病。他收集到了附近两家医院的医疗数据,如表2-1所示。
根据数据,医院A最近治疗了1000个病人,有900人存活,100人死亡,存活率为90%。医院B最近也治疗了1000个病人,有800人存活,200人死亡,存活率为80%。从统计数据来看,似乎医院A比医院B更好一点。
现在我们把收集到的样本数据做一些细分,按照重症病人和非重症病人进行统计,如表2-2所示。
▼表2-2 重症和非重症病人统计