终于有人把幸存者偏差讲明白了

导读:本文带你了解数据收集的偏差。

作者:徐晟

来源:大数据DT(ID:hzdashuju)

396852026443d3fd2c8ad323745108c2.png

数据收集是一项重要的工作,需要投入大量精力和时间,这是因为数据质量直接关乎分析结论的成败。然而,错误的数据收集方法可能造成结果偏差。

比如统计对象出现错误,明明应该统计数据集合A,却统计了数据集合B。又比如统计对象不全面,只抽样了部分数据,却没有统计全体,或者忽略了数据分布存在偏斜等。

这些错误的数据收集方法会产生两种常见的数据偏差——幸存者偏差选择性偏差

01 幸存者偏差

幸存者偏差指用于统计的数据仅来自幸存者,导致结论与实际情况存在偏差的情况。

幸存者偏差源自一个真实故事:二战时期,美军统计了作战飞机的受损情况,他们发现,返航飞机各个损伤部位被击中的弹孔数不同。这些飞机发动机部位的弹孔数最少,机翼的弹孔数量最多。于是有人提出,要赶紧加固飞机机翼,因为这些部位更容易受到敌方炮火的攻击。

可是,美国哥伦比亚大学的沃德教授立即否决了这个方案。沃德教授是一位统计学专家,他应军方要求提供相关专业建议。沃德指出,应该强化的不是机翼,而是发动机。从理论上讲,飞机各部位的中弹概率应该是相同的。发动机部位的弹孔明显偏少,只能说明:那些被击中引擎的飞机大多没有返航。

这就是幸存者偏差,军方只看到幸存下来的飞机,却没有意识到它们只是一部分数据,不能反映飞机受损的真实情况。

选择正确的数据样本非常重要。我们必须保证数据考察是全面的,而非其中的一部分。在很多场合,人们下意识地会做出具有幸存者偏差的选择。

比如一个粗心的研究者在统计医学数据时,为图方便选择了住院病人为研究对象,却没有意识到这种做法可能为研究结果带来偏差——只有病人才去医院。

一些成功学的书中提到,比尔·盖茨、扎

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值