统计学中常被误用的分析方法

1. 模式非证据

人们往往更倾向于秩序而非混乱,我们都希望能从某些现象中找出固定的模式,从而使自己对未知现象有更好的了解,并且能更好地预测未来。
在远古时期,由于自然选择的需要,人们会从自然变化中识别出有规律的模式。但是如今面对令人应接不暇的数据,人们还是希望能用某种模式去解释它,在这个过程中往往会犯两种错误:

  • 倾向于认为数据反映某种模式
  • 倾向于接受这种模式,并忽略与其相悖的事实
1.1混杂效应

2010年世界杯时,德国水族馆里的章鱼保罗被用于进行赛事预测,其预测准确度令人惊叹。难道一只章鱼真的能进行人类所不能及的预测吗?

事实当然不是这样。在章鱼保罗的预测中有这样一个现象:在其预测的13场德国队参加的比赛中,有11次都预测德国队取胜。
这是因为章鱼虽然是色盲,但是它能够识别明暗度,并且更偏好横向形状。实际上章鱼选择过的所有国家中(塞尔维亚、西班牙、德国),其国旗大部分区域都是由对比度较高的横条构成。
所以,在我们有关章鱼和赛事预测的相关分析中,忽略了 混 杂 因 素 : 国 旗 形 状 混杂因素:国旗形状 的影响,从而产生了错误结论。

1.2选择性报告

当我们相信动物预测是非随机预测时,我们其实也在做统计检验:假设某个动物做的是纯随机预测,即它预测对的概率是 1 2 \frac 1 2 21,那么它预测对 k k k次的概率是多少?如果这个概率很小,那么就怀疑这个假设是错误的。

明尼苏达州苹果谷市明尼苏达动物园的官员表示,有一个叫Mindy的海豚在53场橄榄球比赛中预测对32场,其正确率是60%,显著区别于随机预测的正确率50%。

那么是不是说这只海豚就可以帮助人们进行橄榄球比赛赌博呢?
当然不是。只需要想一想,假设这个动物园里的每只动物都参与了预测实验,假设有1000只,但是仅有这1只海豚的结果脱颖而出,于是它被动物园官员大肆宣传,并登上了报纸,让人们趋之若鹜。那么这只动物预测正确的概率可能就不是小概率事件了。
科学的统计检验要求报告的完整性,不能仅报告显著的结果

1.3 统计显著性崇拜

在论文至上的学术界中,(以前)很多学者都在追求显著性,毕竟大多数人都认为不具备统计显著性的检验没有发表价值。当然现如今要发现显著性很简单,主要有以下两种(错误)方法:

  1. 对多种假设进行检验,然后只宣布具有统计显著性的结果。
    在0.05的显著性水平下,即使是对毫无理论价值的试验,都有平均 1 20 \frac 1 {20} 201的试验能够得到显著结果,然后研究人员会选择将这些结果公之于众,并隐藏其他试验结果。
  2. 利用数据发现结论。
    正确的统计研究流程应当是:相关专业领域的人员提出一种理论,然后由统计人员收集样本,并对数据进行处理,检验该理论。现如今却往往是先得到数据,然后再从数据中寻找某种模式,如果存在模式,再反推背后的原因。为了寻找显著的结果,研究人员可能会人为设定上百种模式,然后对其进行检验。

如果你对数据拷问到一定程度,它会坦白一切。
———诺贝尔经济学奖得主 罗纳德·哈里·科斯

针对这些误用产生的看似有理但实际荒诞的结论,主要有两种方法进行鉴别:

  1. 利用常识判断:除非有十分确凿的证据,否则仅根据一次报告中呈现出的在某显著性水平下统计显著结果,就相信其中的结论,显然是不应当的。
  2. 利用新数据判断:如果模式的确存在,则该模式应当也适用于新的数据。 模 式 不 是 证 据 模式不是证据

2.数据的误导性

2.1自选择偏差

《纽约时报》2014年发表过一份调查,旨在解决美国大选中选民投票率较低的问题。他们对美国城市边缘群体进行了大规模调查,认为惩罚和监禁会导致选民不再参与政治,并列举出了一些调查数据:在曾被逮捕的群体中,投票率降低了16%…

这份调查的问题在于:凡是涉及到个体的选择时,往往都会存在 自 选 择 偏 差 自选择偏差 即我们不能忽略个体选择的差异,而仅着眼于群体的特征。比如对于一种常见的结论:

大学毕业生的工资高于高中生

这种结论并不能完全支持“受教育水平越高薪酬水平越高”的结论,因为还有可能是因为能够进入大学进修的学生的智商和其他能力比高中生要高。
因此,对于《纽约时报》的这份调查,并不能单纯认为减少犯罪处罚就能提升投票率,有可能是接受采访的群体本身就不热爱政治活动,事实上受调查群体确实不是随机选择产生的。
还有一个例子

2011年澳大利亚的一群研究人员发现,每天看电视超过6小时的人比从不看电视的人平均寿命少5年。

那么是不是应该鼓励人们不去看电视呢?其实这里仍然是对个体行为的观测数据,很有可能是选择整天看电视的人本身就不热爱运动。
解决自选择偏差的一种有效方法就是进行对照实验,尽量消除自选择偏差。比如:

  • 第一个试验中,随机抽取两组受访者,让其中一组受到处罚,然后观察他们的投票率
  • 第二个试验中,随机抽取两组高中生,让其中一组继续接受大学教育,另一组不接受大学教育,然后观察他们毕业后5年的薪酬水平
  • 第三个试验中,随机抽取两组人,其中一组禁止看电视,另一组每天看6小时电视,然后观察寿命水平。

当然可以看到,进行这样的对照实验有时是违反人性和社会规则的,因此有的结论是几乎不可能被证实的。

2.2 回溯性数据

回 溯 性 数 据 容 易 产 生 幸 存 者 偏 差 回溯性数据容易产生幸存者偏差

  1. 某健康维护组织开展的一项调查反映,该组织90%的成员都对组织的服务感到满意。
  2. 对纽约市兽医院接收诊治的从高层公寓坠落的115只猫咪进行调查,发现从9层以上坠落的猫咪死亡率为5%,而从9层以下坠落的猫咪死亡率为10%。研究人员推测这是由于从高层坠落时猫咪有足够时间将身体展开减少阻力。
  3. 著名的二战飞机维护问题,英国皇家空军观察了返航的战机,发现机翼和尾部的弹孔最多,由此推测这些部位受到的攻击最多,应当加强防护。
  4. Jim Collins用5年时间考察了全球市场上的1435家大公司,从中筛选出了表现明显优于平均水平的11家公司,然后对这11家公司进行研究,发现了它们之间的共同特点,并将其进行推广,写入书籍《从优秀到卓越》中。

以上案例中得出的结论中都存在哪些问题呢?

  1. 健康维护组织的调查中忽略了因为不满意组织而退出的人群,也忽略了已经去世的人群,这两种幸存者偏差会使满意度偏高。
  2. 对兽医院收治猫咪的调查中忽略了坠落后立即死亡的猫咪,同时也忽略了这种可能性:对于从底层坠落的猫咪,其主人往往持乐观态度,更愿意送到医院救治,而对于从高层坠落的猫咪,其主人往往持悲观态度。
  3. 对返航战机的调查中忽略了被击中坠毁后无法返航的战机,同时也说明能返航的战机中,其表面的弹孔不足以构成致命损伤。
  4. Collins的调查中则忽略了已经破产的公司。不过Collins的结论还存在另外一个严重的由回溯性数据引发的问题: 由 数 据 反 推 结 论 由数据反推结论

科学的调查过程应当是这样的:
a . a. a. 确定研究时间段,如50年。
b . b. b. 确定研究样本,应当是50年前的所有上市公司。
c . c. c. 确定某些具有合理性的评价标准,这些标准要具有一定的客观性,而不是根据公司未来的发展情况确定。
d . d. d. 根据这些评价标准筛选出50年前表现良好的公司。
e . e. e. 将选出的公司与其余公司进行比较,观测它们在40年后的业绩水平,从而确定评价标准是否具有科学性。
而Collins是怎么做的呢?

  • 首先,他选择的是50年后业绩较好的公司,忽略了50年间表现较差已经被市场淘汰的公司。
  • 其次,他从这些公司中寻找共同特点,并进行回溯检验,说明这些特点的合理性,完全忽略了这些标准能否用于预测。
  • 最后,从数据中推导结论存在一种危险:由这种结论产生的标准可能只适用于这批数据,也就是现在机器学习中常说的 过 拟 合 过拟合 如果在其他样本中寻找,根据这种评价标准,在相同样容量约束下,仍能抽到满足要求的样本概率可能非常小,但是如果是已经获得了样本,从样本反推结论,得到这种结论的概率就是1.

举个例子说明由数据反推结论的不合理:某次抽牌中得到了5张牌,看完之后得出结论:我抽到的5张牌中为黑桃的概率为1/5,并且用这个结论去检验样本,当然是成功的。但是这个结论显然不能用于预测我以后的抽牌结果。
所以说,市面上的一些成功秘籍,都存在固有的幸存者偏差和由数据反推结论的错误。如果真的想检验成功秘籍的科学性,最好的做法是将这些秘籍用于预测未来,观察按照这些秘籍行动的人在未来是否取得了成功。

3.

3.1 错误的比较标准

在有的场合,为了消除比较对象自身水平的影响,会采用百分比评价标准,例如:

若某人的月收入为1000元,某天他丢了100元,则他相当于损失了自己10%的收入,这是相当令人心痛的;但如果某人的月收入为10000元,某天不小心丢了100元,则只相当于损失了1%的收入,看起来似乎也没什么要紧的。

但在有的场合,忽略比较对象自身水平进行比较就不合适了,例如:

马萨诸塞州的韦尔弗利特是一座宁静的小镇,盛产牡蛎,但是波士顿的一份报纸却宣称这座小镇是座谋杀小镇,因为其谋杀率非常高: 4 / 10000 4/10000 4/10000。相比之下,波士顿的谋杀率仅为 1.7 / 10000 1.7/10000 1.7/10000

事实当然不是这样,事实上当年韦尔弗利特有1起谋杀案,而且这起谋杀案还是在另一座城市犯罪的罪犯在韦尔弗利特自首被记录下的,但韦尔弗利特仅有2491名居民,而相比之下,当年波士顿发生了98起谋杀案。

3.2 虚假相关
  1. 假如有一家矿产公司要来你的城市开矿,虽然担心环境影响,但该公司根据以往研究指出矿产量和房价存在紧密的正相关,只要答应开矿,那么房屋就会升值。应当相信矿产公司的说法吗?
  2. 一项针对美国啤酒销量和已婚人口的调查表示,两者之间存在高度相关性,所以应当提高啤酒销量,从而提高已婚人口数量。

以上两个例子犯了统计中最常见的错误:

  1. 虚假相关
  2. 虚假因果

虚假相关常常存在于随时间变化存在相同趋势的变量之间,这些变量往往不存在实际的相关性。
例如第2个例子中,实际上啤酒销量和已婚人口都与人口增长有关,而它们之间却显然不存在关系。第1个例子中,住房价格上升可能是自身增值或人口增加导致的。

4 数据还是思想

4.1 错误的计算方法

2010年,哈佛教授Carmen Reinhart和Ken Rogoff发表了一篇论文,认为当政府债务与GDP的比例超过90%时,GDP增长就会受到限制。这项结论有力地支持了通货紧缩政策,欧洲很多政府通过削减开支、提高税收以促进经济增长,然而结果却出乎意料:欧洲2011-2013年的平均失业率逐年增高。

Carmen和Ken是如何得出他们的结论的呢?
他们以20个发达国家为研究对象,考虑其政府债务与GDP比例,以及研究期间内GDP的平均增长率,并将国家按照债务与GDP比例大小划分,发现平均增长率与该比例成反比。
这似乎是确凿的证据了,但是马萨诸塞大学的以为研究生Thomas Herdon在复现他们论文的结果时发现,Carmen和Ken在计算时犯了两个较大的错误:

  1. 选择性忽略数据。通常情况下,如果数据缺失会被忽略,或者采取某种方法插补,但是Carmen和Ken在计算新西兰1947-1951年间的数据时,只选择了1951年的数据,这一年新西兰的债务与GDP之比超过90%,且GDP增长率是-7.6%,而前四年的增长率都是正的。Carmen称新西兰在高债务年份的平均增长率为-7.6%
  2. 采用错误的简单平均计算方法。为了得出所有高债务国家的平均GDP增长率,Carmen将这些国家的GDP做了简单平均。例如英国在19年债务比超过90%,其GDP平均增长率为2.4%,新西兰有1年债务比超过90%,其(错误的)GDP平均增长率为-7.6%,Carmen将这两个数据简单平均,得出平均增长率为-2.6%。

很显然以上两个计算错误导出了错误的结论。首先应当保证数据完整性,其次应当采用加权平均法,按照加权平均得出的平均增长率为1.9%。
这个例子告诉我们,方法本身没有问题,当我们输入一个数据,计算方法总能按照固定程序得出正确的结果,但是方法的应用是否存在问题,就需要我们的认真思考了。

4.2 相关性不等于因果性

仍然是3.1中的例子,当我们看到这样的表格时,我们能真的认为债务比的提高会GDP增速下降吗?

债务比<30%30%-60%60%-90%>90%
平均GDP增长率4.12.82.8-0.1

如果根据经济理论进行分析,实际上应当是经济衰退引发债务比例上升。马萨诸塞大学的Arindrajit Dube教授对二者之间的相关性进行了分析,发现债务比与过去经济增长之间的相关性高于它与未来经济增长之间的相关性。
现在我们常用格兰杰因果检验考察两个变量之间是否存在因果关系以及因果关系的形式。

5. 识别图像中的陷阱

5.1 调整纵坐标轴

收入看起来很平稳

收入在2010年第二季度急剧下降

若财务经理拿出以上两张图来说明公司的经营情况,很显然第一张图更让人放心,因为收入变化很平稳。但如果是第二张图就很令人担心,因为光从高度上看,2010年第二季度收入下降了40%,但实际上却只有2%。

5.2 调整横坐标轴

上图是改变了纵坐标后的结果,再看看改变横坐标会发生什么:
看起来美国公民获得的诺贝尔奖个数显著下降

美国公民获得诺贝尔奖数目仍在上升

第一张图很是令人震惊:美国获得的诺贝尔奖数目遭遇了断崖式下降。但仔细观察会发现,前七个时间段都是10年,但第八个时间段:1971-1971才4年而已。

5.3 将两个图合并

如果将两个图同时绘制在一张图中,问题可能更多:作图者可以尽情选择不同的纵坐标轴。
家庭收入远超物价上涨幅度

物价上涨远超家庭收入

只需要调整两个变量的范围,就能得出不同的结论。如果确实需要讨论物价和收入的关系,则需要用物价指数校正家庭收入,然后再观察家庭收入的增长情况。

6 贝叶斯问题中的悖论

6.1 蒙提·霍尔悖论

蒙提·霍尔悖论来自于美国的一个电视娱乐节目,在这场节目中,三扇门后分别放有一辆汽车和两只山羊,参赛选手需要在三扇紧闭的门中做出选择。
特殊的地方在于,当参数选手第一次做出选择后,主持人需要打开剩下两扇门中的一扇(主持人知道汽车的位置),并露出这扇门后的山羊,然后让参数选手决定是否换门?
问题就在于,有人认为已知另一扇门的状况对当前的选择没有任何影响,中奖的概率是 1 2 \frac 1 2 21,但有的人认为中奖概率会发生改变,如果仍然坚持当前选择,中奖概率会是 1 3 \frac 1 3 31,应当换门。

那么实际应该是什么样的呢?
先用贝叶斯公式做一下,给三扇门编号A,B,C, A 1 A_1 A1表示A门后有车, A 0 A_0 A0表示A门后没有车,其他符号类似。假定选手选了A门,主持人开了C门,露出了C门后的绵羊,那么选手此时的选择获奖的可能是多少?
P ( A 1 ∣ C 0 ) = P ( A 1 ) P ( C 0 ∣ A 1 ) P ( A 1 ) P ( C 0 ∣ A 1 ) + P ( A 0 ) P ( C 0 ∣ A 1 ) = 1 3 × 1 1 3 × 1 + 2 3 × 1 2 = 1 2 P(A_1 |C_0) = \frac{P(A_1 )P(C_0|A_1)}{P(A_1 )P(C_0|A_1 ) + P(A_0)P(C_0|A_1 )} \\\\ = \frac{ \frac1 3 \times 1}{\frac1 3 \times 1 + \frac2 3 \times \frac 1 2} = \frac 1 2 P(A1C0)=P(A1)P(C0A1)+P(A0)P(C0A1)P(A1)P(C0A1)=31×1+32×2131×1=21
看起来好像确实是主持人的行为不会有任何影响。但是仔细分析一下,概率 P ( A 1 ∣ C 0 ) P(A_1|C_0) P(A1C0)表示C门后无车时,A门后有车的概率,在这里我们将C门后有无车当做随机事件来考虑,但实际上随机事件应当是主持人选择哪扇门,因为主持人选好门后,打开的门后必然无车!所以需要考察主持人选门这个随机事件,而不是主持人选的门后是不是有羊这个随机事件

我们对整个事件重新编号:假定三扇门编号为1,2,3,用 A i A_i Ai表示选手选择了第 i i i扇门,用 B j B_j Bj表示主持人开了第 j j j扇门。若 A i = 1 A_i = 1 Ai=1,表明选手获奖, A i = 0 A_i = 0 Ai=0,表明选手没有获奖。假设选手最初选了门1,主持人开了门3,露出了山羊

  1. 当不知道主持人开哪扇门时,对于选手来说选择哪个门获奖的概率都是一样的: P ( A 1 = 1 ) = P ( A 2 = 1 ) = P ( A 3 = 1 ) = 1 3 P(A_1 = 1) = P(A_2 = 1) = P(A_3 = 1) = \frac1 3 P(A1=1)=P(A2=1)=P(A3=1)=31
  2. 现在选手选了门1,主持人打开了门3,而主持人一定不会打开后面有车的那扇门,因此可以获得主持人行为的概率描述: P ( B 3 ∣ A 1 = 1 ) = 1 2 , P ( B 3 ∣ A 2 = 1 ) = 1 , P ( B 3 ∣ A 3 = 1 ) = 0 P(B_3 |A_1 = 1) = \frac 1 2, P(B_3|A_2 = 1) = 1, P(B_3|A_3 = 1) = 0 P(B3A1=1)=21,P(B3A2=1)=1,P(B3A3=1)=0就是说如果车在门1后,那主持人开门3的概率是0.5;如果车在门2后,主持人必开门3;如果车在门3后,主持人是不可能开门3的。
    3.那么现在门1后是汽车的概率是多少?再来重新计算条件概率 P ( A 1 = 1 ∣ B 3 ) P(A_1 = 1|B_3) P(A1=1B3)
    P ( A 1 = 1 ∣ B 3 ) = P ( A 1 = 1 ) P ( B 3 ∣ A 1 = 1 ) P ( A 1 = 1 ) P ( B 3 ∣ A 1 = 1 ) + P ( A 2 = 1 ) P ( B 3 ∣ A 2 = 1 ) + P ( A 3 = 1 ) P ( B 3 ∣ A 3 = 1 ) = 1 3 ⋅ 1 2 1 3 ⋅ 1 2 + 1 3 ⋅ 1 + 1 3 ⋅ 0 = 1 3 P(A_1=1|B_3) = \frac{P(A_1=1)P(B_3|A_1=1)}{P(A_1=1)P(B_3|A_1=1)+P(A_2=1)P(B_3|A_2=1)+P(A_3=1)P(B_3|A_3=1)} \\ = \frac{\frac1 3\cdot \frac1 2}{\frac1 3\cdot \frac1 2 + \frac13 \cdot 1 + \frac13 \cdot 0} \\ = \frac13 P(A1=1B3)=P(A1=1)P(B3A1=1)+P(A2=1)P(B3A2=1)+P(A3=1)P(B3A3=1)P(A1=1)P(B3A1=1)=3121+311+3103121=31

除了利用贝叶斯公式之外,还可以从另一个角度来考虑这个问题:

  1. 假设选手选了山羊1号,那么主持人必定选山羊2号,这种概率为 1 3 \frac1 3 31,此时若换,则能赢。
  2. 假设选手选了山羊2号,那主持人必定选山羊1号,这种概率为 1 3 \frac1 3 31,此时若换,则能赢。
  3. 假设选手选了汽车,那主持人随机选山羊一号或二号,这种概率为 1 3 \frac1 3 31,此时若换,则输。
    综上,如果换了的话,赢的概率是 2 3 \frac 2 3 32,所以应当要换。

第三种理解方法:
如果选手选择了A门,虽然他不知道A门后有没有汽车,但是他知道B,C门中肯定有一扇门后有山羊。如果主持人打开了门C,这对于选手了解A门后是否有车没有任何帮助,因此他对于A门后是否有车的判断没有改变,仍然是 1 3 \frac 1 3 31,但是此时他对B门是否有车的概率判断发生了改变,变成了 1 − 1 3 = 2 3 1-\frac13 = \frac23 131=32。所以仍然应当选择换门。

6.2 条件概率和无条件概率

高中生物课本上可能出现过这样的题目:倘若Smith有两个孩子,已知其中一个是女孩,那么另一个孩子是女孩的概率是多少?
根据生物学的观点,我们首先认为二孩家庭孩子性别组成为以下情况(设G表示女孩,B表示男孩):

组合GGBGGBBB
概率 1 4 \frac 1 4 41 1 4 \frac 1 4 41 1 4 \frac 1 4 41 1 4 \frac 1 4 41

倘若已经知道其中一个是女孩,那么只剩下GG,BG,GB三种组合,于是该家庭另一个孩子是女孩的概率就是 P = 1 4 1 4 + 1 4 + 1 4 = 1 3 P = \frac { \frac1 4}{\frac 1 4 + \frac 14+\frac14} = \frac13 P=41+41+4141=31
这是我们经常用的方法,而且用到了贝叶斯的思想。但是本书《简单统计学》作者加里·史密斯对这个解法提出了质疑,他用更形象的语言展示了这个问题:

假如Smith有两个孩子,一天看到Smith在和他的一个女孩散步,问另外一个孩子是男孩的概率?

加里用如上方法进行了分析,得出结论:倘若另外一个孩子是女孩的概率是 1 3 \frac1 3 31,那么这个孩子是男孩的概率就是 2 3 \frac2 3 32。再换一种情景,倘若Smith是在跟他的一个儿子散步,那么同样可以得出另外一个孩子是男孩的概率是 1 3 \frac1 3 31,于是另外一个孩子是男孩的概率是 2 3 \frac2 3 32。所以说,无论看到Smith是在跟男孩还是女孩散步,他有一男一女的概率都是 2 3 \frac 2 3 32,这与之前的假设不符,所以他认为这种做法是错的。

很显然,加里在这里犯了一个错误:
他把条件概率当成了无条件概率
P ( 一 男 一 女 ∣ 有 一 个 女 孩 ) = P ( 一 男 一 女 , 一 女 ) P ( 一 女 ) = P ( 一 男 一 女 ) P ( 一 女 ) = 1 / 2 3 / 4 = 2 3 P(一男一女| 有一个女孩) = \frac{ P(一男一女,一女)}{P(一女)} \\ = \frac{ P(一男一女)}{P(一女)} \\ = \frac{1/2}{3/4} = \frac 2 3 P()=P()P()=P()P()=3/41/2=32
P ( 一 男 一 女 ∣ 有 一 个 男 孩 ) = P ( 一 男 一 女 , 一 男 ) P ( 一 男 ) = P ( 一 男 一 女 ) P ( 一 男 ) = 1 / 2 3 / 4 = 2 3 P(一男一女| 有一个男孩) = \frac{ P(一男一女,一男)}{P(一男)} \\ = \frac{ P(一男一女)}{P(一男)} \\ = \frac{1/2}{3/4} = \frac 2 3 P()=P()P()=P()P()=3/41/2=32
这是完全正确的,那么加里是什么意思呢?
他的意思是
P ( 一 男 一 女 ) = 2 3 P(一男一女) = \frac2 3 P()=32
显然
P ( A ∣ B ) = P ( A ∣ C ) = a ⇏ P ( A ) = a P(A|B) = P(A|C) = a \nRightarrow P(A) = a P(AB)=P(AC)=aP(A)=a
所以本书作者在这里犯了个错误,在这里指正。

6.3 被误用的条件概率

Bob是一家公司的人事主管,他很痛恶瘾君子,不希望自己招募到的职员有是个瘾君子,所以他希望将药检引入到求职者筛选过程中。经过简单调查,Bob得知药检的正确率是95%,他觉得这个概率很高,初步决定将这个方法引入到筛选中。

如果所有的公司都采用了Bob的方法,那么失业率可能会急剧上升。
这里Bob搞错了一件事:药检正确率是95%指的是:在瘾君子中,经过药检,结果是阳性的概率是95%,即 P ( 结 果 为 阳 性 ∣ 该 人 是 瘾 君 子 ) = 0.95 P(结果为阳性|该人是瘾君子) = 0.95 P()=0.95而不是指如果结果是阳性,那么这个人是瘾君子的概率是95%,即 P ( 该 人 是 瘾 君 子 ∣ 结 果 为 阳 性 ) ≠ 0.95 P(该人是瘾君子|结果为阳性) \ne 0.95 P()=0.95
但实际中,吸毒人群占总人口的比例非常小,所以如果直接对所有人口进行检验,误检的概率会非常大。

举茆诗松《概率论与数理统计教程》上的例子来说明:

某地区居民的肝癌发病率为0.0004,某种化验方法的正确率是99%。假如现在对该地区中随机抽取的一个居民进行检验,检验结果是阳性,他确实患肝癌的概率是多少?

  • 答:记事件A:被检查者的确患有肝癌,事件B:被检查者检测结果为阳性。那么现在应当计算的是条件概率 P ( A ∣ B ) P(A|B) P(AB):
    P ( A ∣ B ) = P ( A ) P ( B ∣ A ) P ( A ) P ( B ∣ A ) + P ( A ˉ ) P ( B ∣ A ˉ ) = 0.0004 × 0.99 0.0004 × 0.99 + 0.9996 × 0.01 = 0.038 P(A|B) = \frac{ P(A)P(B|A)}{P(A)P(B|A) + P(\bar{A})P(B|\bar{A})} \\ = \frac{0.0004\times 0.99}{0.0004\times 0.99 + 0.9996\times 0.01} \\ = 0.038 P(AB)=P(A)P(BA)+P(Aˉ)P(BAˉ)P(A)P(BA)=0.0004×0.99+0.9996×0.010.0004×0.99=0.038
    所以检验结果是阳性的人真实患癌的概率只有3.8%,假阳性的概率为96.2%,可见相当之高。
    一般来说要降低错检概率,常用的方法是尽可能缩小检查人群,用一些辅助方法排除掉明显不是肝癌的人群,提高人群中患肝癌的概率,然后再进行检测。

历史上,在1997年“钱德勒诉米勒”案中,美国最高法院驳回了佐治亚州要求某些州岗位申请者接受毒品检测的要求。


此外尤其需要注意,当对多项指标进行检测,并且最终判断依赖于所有指标的联合结果,假阳性概率会累计,当指标非常多时,假阳性的概率会接近100%。

7. 辛普森悖论

某家互联网公司打算在网页上投放广告,有两种投放方式: 1. 1. 1.一次点击:广告出现在网页的第一个页面上; 2. 2. 2.二次点击,网页第一个页面显示关键词,用户点击关键词后会出现与这个关键词有关的定向广告。当用户点击广告时,互联网公司就会获得收入。
该公司在两种方法都试运行一段时间后对业绩进行分析,得到了以下数据:
不同广告的收入
看起来二次点击的收入更高。

但是在采纳这个结论之前,有两点值得注意:

  1. 以上数据为观测数据,有可能存在自选择偏差(见1.1),即选择一次访问的用户和二次访问的用户之间本身就存在系统性差异。这样的数据可能不能直接使用,还需要进行对照实验。
  2. 如果将前期试运行期间的用户群体进行划分,分为美国用户和国际用户,会发现奇怪的现象:辛普森悖论即如果将数据分解成美国和国际两部分,则结论会发生逆转。

如何理解这种逆转?

  • 首先,直接使用聚合数据处理是不可行的,因为这样忽略了混杂因素,结果可能不符合实际情况。
  • 其次,逆转发生的原因:分析可知,美国用户的总RPM更高(不区分一次点击和二次点击),且美国用户中选择二次点击的比例相对于国际用户更高。

另外一个经典的例子:加州大学伯克利分校研究生院歧视女性申请人事件。上世纪70年代有人发现加州大学伯克利分校男性申请人的录取率为44%,女性申请人的录取率为35%。
法院对此进行了调查,想要弄清楚具体是哪个系的歧视问题比较严重,然后得出了下列的结果:
图1-1
图1-2
从图中很容易发现问题:歧视现象并不明显,反而是女性的录取率高于男性。
这里的混杂因素就是各个学院的录取标准。每个学院的录取率不同,最高的为64%,最低的仅有6%。而对应到性别上,可以发现男性更喜欢申请高录取率的学院,女性更喜欢申请低录取率的学校。

再多看几个例子:

  1. 阿拉斯加航空公司和另一家航空公司在五个机场存在竞争,阿拉斯加航空公司在各个机场的准点率都比另一家公司高,但其总体准点率却要低。这主要是因为阿拉斯加航空有更多飞往西雅图的航班,而西雅图的天气多变,经常发生飞机延误。这里的混杂因素是各个城市的天气情况
  2. 瑞典的女性总体死亡率要高于男性,但是在各个年龄段上的死亡率都要低,这主要是因为瑞典的老年女性要多于男性,而老年人的死亡率相对较高,这里的混杂因素是年龄
  3. 手术A对于小型肾结石和大型肾结石的治疗成功率都要高于手术B,但是其总体成功率却低于手术B,这是因为手术A经常用于治疗大型肾结石,而大型肾结石的治愈率相对较低。这里的混杂因素是结石类型

但是也要注意,并不是所有情况下分解数据都要比混杂数据更具有解释性。比如以下一组数据:科里和吉米的击球情况
科里在单日的击球率高于吉米,但总击球率低于吉米。这里能将单双日作为混杂因素吗?恐怕不能,毕竟比赛的日期不是能提前预见的。


总结:当处理观测数据时,要严格考虑自选择偏差和混杂因素的影响,前者可能忽略了个体间的系统性差异,后者可能产生辛普森悖论。

8 随机性

8.1

假如掷一枚均匀的硬币10次,由于出现正面和反面的概率都是0.5,所以大部分人都在潜意识里觉得10次里正面和反面的次数相差不会很大,假如出现了9次正面1次反面,会有很多人觉得这个硬币有诈。

但是仔细分析会发现,对于一枚均匀硬币,10次里出现5次正面5次反面的概率和9次正面1次反面的概率是完全相等的。

就像第一章所说的,人们总是倾向于认为数据背后隐藏着某种模式,并选择性地忽略日常生活中的那些巧合和随机性。

8.2 赌徒心理

1913年8月18日蒙特卡洛的一家赌场发生了这样一场轮盘赌:某张赌桌上黑色连续出现了10次,投注人认为根据所谓”平均定律“,黑色出现得越多,下次出现红色的概率就越大,于是越来越多的人将注下在红色上,可惜,黑色接着连续出现了5次。事实上这一天黑色连续出现了26次,而赌徒们几乎到后面都将注下在了红色上。

事实上,无论是”赌徒心理“,还是所谓”运气守恒“,通常都是毫无根据的,因为上一次的结果理论上不会影响下一次的结果,除非考虑到其他混杂因素的影响。

8.3 费曼陷阱

理查德·费曼曾经请加州理工大学的学生计算走出教室在停车场看到的第一辆车拥有特定牌照如8NSR261的概率,学生们算了后得到答案为1.76亿分之一。费曼却说正确的概率为1,因为他刚进来的时候已经看到这辆车了。

这件事告诉我们,如果观测到小概率事件已经发生,那么这件事就不是小概率事件了。
这件事同样告诉我们,当数据已经出现后再去总结数据的模式是很容易的。至少我们需要对这个模式进行新数据的检验,并尽可能排除混杂因素的影响。
同样,想要从数据聚集中寻找某种模式来解释数据本就是不可靠的。即使数据是随机出现,也仍有可能出现聚集现象。

9.4巧合死亡日期

有人发现美国的第二任、第三任、第五任总统都在7月4日这一天去世,而这一天恰好是《独立宣言》签署的日子。于是他们开始宣扬总统高尚的爱国心,以至于他们甚至会推迟死亡日期

这个荒谬的论断有以下几点错误:

  • 这是典型的根据数据寻找模式的方法,当这些数据已经产生时,要寻找背后的原因总是能强行找到的。
  • 这一说法显然没有计算过两人的生日在同一天的概率。不妨计算一下n个人生日都不相同的概率 p n p_n pn:(假设$n \le 365 $)
    p n = A N n 36 5 n = ( 1 − 1 365 ) ⋯ ( 1 − n − 1 365 p_n = \frac{A_N^n}{365^n} \\ = (1-\frac1{365})\cdots (1-\frac{n-1}{365} pn=365nANn=(13651)(1365n1
    可以计算,当 n = 30 时 , p n = 0.3037 n=30时,p_n = 0.3037 n=30pn=0.3037,如果仅仅是30个人,两个人生日在同一天的概率就已经接近0.7.所以这一事件甚至都不算小概率事件。

9. 均值回归

9.1

诺贝尔奖获得者丹尼尔·卡尼曼曾告诉以色列飞行官如果新兵接受表扬可以进步地更快,这位高级教官反驳道:“根据我的经验来看,当表现非常好的飞行员受到表扬时,他们更容易骄傲,在下一次的表现中会退步,而批评表现非常差的学员时,他们会因此勉励自己,下次表现得更好。”

但卡尼曼用均值回归的方法给出了解释:因为同一批招进队的飞行员水平基本是差不多的,所以出现表现极好或极差是一种偶然事件,一般很少发生,当这次表现极好时,下次就会回到平均水平。又由于我们倾向于表扬那些表现好的人,所以就造成了这样一种错觉:表现好的人经不起表扬。

一个更著名的例子就是高尔顿研究的身高均值回归现象:他发现身材异常高达的父母往往都会有矮一些的孩子,而身材异常矮小的父母往往会有高一些的孩子。
他认为这是一种均值回归现象,因为同一个地区生活的人的平均身高是大致相同的,拥有1.8米基因身高的人显然要比拥有2.1米基因身高的人更多,倘若前者在外在因素影响下长到了2.1米,那么这实际上就是一次偶然事件,他的下一代的身高大概率会向平均水平靠拢。

9.2

道琼斯指数中包含了美国最优秀公司的30只蓝筹股的平均价格,并且会定期更改其中的股票。比如1991年家居装修公司家得宝取代了零售公司西尔斯,进入了道琼斯指数中。
问题在于,这两家公司的股票哪一家会在今后一段时间内表现得更好?
很多人凭直觉认为,进入道琼斯指数的股票当然会表现得更好,而被剔除的股票会表现得更差。

当然如果我们从均值回归的角度思考一下,就会得出完全相反的结论。

  • 首先,我们关注的是公司股票的表现情况,这是从投资的角度考虑的,而不是关注公司的表现情况。
  • 其次,股票市场中投资者的情绪会体现到股票的股价上。当一家公司进入道琼斯指数时,人们会对他有更高的期望,并认购该公司的股票,而当一家公司被踢出道琼斯指数时,人们会预期他的经营状况持续恶化,并抛售该公司的股票。这就导致进入道指的公司会拥有过高的股票价格,而离开道指的公司会拥有不合理的股票低价。这些行为对于股票来说,相当于是外界干扰因素。
  • 最后,由于均值回归的存在,这些公司的股票价格会最终向平均水平回归,表现糟糕的公司股票价格会上升,表现优异的公司股票价格会下跌。

所以,倘若我们回到1991年,应当在此时认购西尔斯的股票。

9.3

体育界曾经流传过“《体育画报》的诅咒”这一说法,即如果一个运动员登上了《体育画报》封面,那他下次的表现一定不会很好。

真的存在这种诅咒吗?
其实这种现象也可以用均值回归解释。

  • 首先,《体育画报》是根据选手的比赛表现来决定是否作为封面人物的。而选手的比赛表现是其自身真实水平的不完美测量,即他的比赛表现总是围绕真实水平波动的。
  • 其次,《体育画报》并不是年刊,所以可以认为在《体育画报》出版的这段时间内,选手的真实水平并不会发生变化,所以这里的回归指的就是选手的“表现”相当于“真实能力“的波动。
  • 最后,当一个选手连续多次的表现都非常惊人以至于登上《体育画报》后,下一次、或者若干次后,他的表现一定会向均值回归,即看起来像是“退步”了。

因此说,如果不要让别人失望,或者让自己失望,靠的不是一次两次的运气,而是持续提高自己的真实水平,这样才能一直保持稳定的发挥。

10 如何拷问数据

10.1 舍弃不需要的数据

通过从完整的数据集中剔除不需要的数据,只保留自己想要的数据,可以很简单地得出自己想要结论。

假如我对外宣称我具有控制抛硬币的能力。若某次实验中,20次抛硬币的结果中出现了9次正面和11次反面,这看起来很像是随机得出的,不能证实我具有特殊能力。因此截取其中一段,只保留其中部分数据,然后对外宣称我在10次抛硬币中9次为正面,这样看起来就很有说服力了。

10.2 彩票中的智商税

很多人常做的事情就是利用历史数据预测未来趋势,甚至有人会利用股票过去的价格走向预测未来的涨跌。这种单纯从数据得出结论的方法是不可靠的,要真实得到关于股市的涨跌预测,除了需要数据,更需要的是一种理论,而数据只不过是用来印证理论的方法。

因此,当我们利用历史趋势进行外推时,一定需要有合乎逻辑的解释,而不能仅仅利用数据反映出的信息。

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值