导读:本文带你了解数据收集的偏差。
作者:徐晟
来源:大数据DT(ID:hzdashuju)
数据收集是一项重要的工作,需要投入大量精力和时间,这是因为数据质量直接关乎分析结论的成败。然而,错误的数据收集方法可能造成结果偏差。
比如统计对象出现错误,明明应该统计数据集合A,却统计了数据集合B。又比如统计对象不全面,只抽样了部分数据,却没有统计全体,或者忽略了数据分布存在偏斜等。
这些错误的数据收集方法会产生两种常见的数据偏差——幸存者偏差和选择性偏差。
01 幸存者偏差
幸存者偏差指用于统计的数据仅来自幸存者,导致结论与实际情况存在偏差的情况。
幸存者偏差源自一个真实故事:二战时期,美军统计了作战飞机的受损情况,他们发现,返航飞机各个损伤部位被击中的弹孔数不同。这些飞机发动机部位的弹孔数最少,机翼的弹孔数量最多。于是有人提出,要赶紧加固飞机机翼,因为这些部位更容易受到敌方炮火的攻击。
可是,美国哥伦比亚大学的沃德教授立即否决了这个方案。沃德教授是一位统计学专家,他应军方要求提供相关专业建议。沃德指出,应该强化的不是机翼,而是发动机。从理论上讲,飞机各部位的中弹概率应该是相同的。发动机部位的弹孔明显偏少,只能说明:那些被击中引擎的飞机大多没有返航。
这就是幸存者偏差,军方只看到幸存下来的飞机,却没有意识到它们只是一部分数据,不能反映飞机受损的真实情况。
选择正确的数据样本非常重要。我们必须保证数据考察是全面的,而非其中的一部分。在很多场合,人们下意识地会做出具有幸存者偏差的选择。
比如一个粗心的研究者在统计医学数据时,为图方便选择了住院病人为研究对象,却没有意识到这种做法可能为研究结果带来偏差——只有病人才去医院。
一些成功学的书中提到,比尔·盖茨、扎