统计学中常被误用的分析方法

1. 模式非证据

人们往往更倾向于秩序而非混乱,我们都希望能从某些现象中找出固定的模式,从而使自己对未知现象有更好的了解,并且能更好地预测未来。
在远古时期,由于自然选择的需要,人们会从自然变化中识别出有规律的模式。但是如今面对令人应接不暇的数据,人们还是希望能用某种模式去解释它,在这个过程中往往会犯两种错误:

  • 倾向于认为数据反映某种模式
  • 倾向于接受这种模式,并忽略与其相悖的事实
1.1混杂效应

2010年世界杯时,德国水族馆里的章鱼保罗被用于进行赛事预测,其预测准确度令人惊叹。难道一只章鱼真的能进行人类所不能及的预测吗?

事实当然不是这样。在章鱼保罗的预测中有这样一个现象:在其预测的13场德国队参加的比赛中,有11次都预测德国队取胜。
这是因为章鱼虽然是色盲,但是它能够识别明暗度,并且更偏好横向形状。实际上章鱼选择过的所有国家中(塞尔维亚、西班牙、德国),其国旗大部分区域都是由对比度较高的横条构成。
所以,在我们有关章鱼和赛事预测的相关分析中,忽略了 混 杂 因 素 : 国 旗 形 状 混杂因素:国旗形状 的影响,从而产生了错误结论。

1.2选择性报告

当我们相信动物预测是非随机预测时,我们其实也在做统计检验:假设某个动物做的是纯随机预测,即它预测对的概率是 1 2 \frac 1 2 21,那么它预测对 k k k次的概率是多少?如果这个概率很小,那么就怀疑这个假设是错误的。

明尼苏达州苹果谷市明尼苏达动物园的官员表示,有一个叫Mindy的海豚在53场橄榄球比赛中预测对32场,其正确率是60%,显著区别于随机预测的正确率50%。

那么是不是说这只海豚就可以帮助人们进行橄榄球比赛赌博呢?
当然不是。只需要想一想,假设这个动物园里的每只动物都参与了预测实验,假设有1000只,但是仅有这1只海豚的结果脱颖而出,于是它被动物园官员大肆宣传,并登上了报纸,让人们趋之若鹜。那么这只动物预测正确的概率可能就不是小概率事件了。
科学的统计检验要求报告的完整性,不能仅报告显著的结果

1.3 统计显著性崇拜

在论文至上的学术界中,(以前)很多学者都在追求显著性,毕竟大多数人都认为不具备统计显著性的检验没有发表价值。当然现如今要发现显著性很简单,主要有以下两种(错误)方法:

  1. 对多种假设进行检验,然后只宣布具有统计显著性的结果。
    在0.05的显著性水平下,即使是对毫无理论价值的试验,都有平均 1 20 \frac 1 {20} 201的试验能够得到显著结果,然后研究人员会选择将这些结果公之于众,并隐藏其他试验结果。
  2. 利用数据发现结论。
    正确的统计研究流程应当是:相关专业领域的人员提出一种理论,然后由统计人员收集样本,并对数据进行处理,检验该理论。现如今却往往是先得到数据,然后再从数据中寻找某种模式,如果存在模式,再反推背后的原因。为了寻找显著的结果,研究人员可能会人为设定上百种模式,然后对其进行检验。

如果你对数据拷问到一定程度,它会坦白一切。
———诺贝尔经济学奖得主 罗纳德·哈里·科斯

针对这些误用产生的看似有理但实际荒诞的结论,主要有两种方法进行鉴别:

  1. 利用常识判断:除非有十分确凿的证据,否则仅根据一次报告中呈现出的在某显著性水平下统计显著结果,就相信其中的结论,显然是不应当的。
  2. 利用新数据判断:如果模式的确存在,则该模式应当也适用于新的数据。 模 式 不 是 证 据 模式不是证据

2.数据的误导性

2.1自选择偏差

《纽约时报》2014年发表过一份调查,旨在解决美国大选中选民投票率较低的问题。他们对美国城市边缘群体进行了大规模调查,认为惩罚和监禁会导致选民不再参与政治,并列举出了一些调查数据:在曾被逮捕的群体中,投票率降低了16%…

这份调查的问题在于:凡是涉及到个体的选择时,往往都会存在 自 选 择 偏 差 自选择偏差 即我们不能忽略个体选择的差异,而仅着眼于群体的特征。比如对于一种常见的结论:

大学毕业生的工资高于高中生

这种结论并不能完全支持“受教育水平越高薪酬水平越高”的结论,因为还有可能是因为能够进入大学进修的学生的智商和其他能力比高中生要高。
因此,对于《纽约时报》的这份调查,并不能单纯认为减少犯罪处罚就能提升投票率,有可能是接受采访的群体本身就不热爱政治活动,事实上受调查群体确实不是随机选择产生的。
还有一个例子

2011年澳大利亚的一群研究人员发现,每天看电视超过6小时的人比从不看电视的人平均寿命少5年。

那么是不是应该鼓励人们不去看电视呢?其实这里仍然是对个体行为的观测数据,很有可能是选择整天看电视的人本身就不热爱运动。
解决自选择偏差的一种有效方法就是进行对照实验,尽量消除自选择偏差。比如:

  • 第一个试验中,随机抽取两组受访者,让其中一组受到处罚,然后观察他们的投票率
  • 第二个试验中,随机抽取两组高中生,让其中一组继续接受大学教育,另一组不接受大学教育,然后观察他们毕业后5年的薪酬水平
  • 第三个试验中,随机抽取两组人,其中一组禁止看电视,另一组每天看6小时电视,然后观察寿命水平。

当然可以看到,进行这样的对照实验有时是违反人性和社会规则的,因此有的结论是几乎不可能被证实的。

2.2 回溯性数据

回 溯 性 数 据 容 易 产 生 幸 存 者 偏 差 回溯性数据容易产生幸存者偏差

  1. 某健康维护组织开展的一项调查反映,该组织90%的成员都对组织的服务感到满意。
  2. 对纽约市兽医院接收诊治的从高层公寓坠落的115只猫咪进行调查,发现从9层以上坠落的猫咪死亡率为5%,而从9层以下坠落的猫咪死亡率为10%。研究人员推测这是由于从高层坠落时猫咪有足够时间将身体展开减少阻力。
  3. 著名的二战飞机维护问题,英国皇家空军观察了返航的战机,发现机翼和尾部的弹孔最多,由此推测这些部位受到的攻击最多,应当加强防护。
  4. Jim Collins用5年时间考察了全球市场上的1435家大公司,从中筛选出了表现明显优于平均水平的11家公司,然后对这11家公司进行研究,发现了它们之间的共同特点,并将其进行推广,写入书籍《从优秀到卓越》中。

以上案例中得出的结论中都存在哪些问题呢?

  1. 健康维护组织的调查中忽略了因为不满意组织而退出的人群,也忽略了已经去世的人群,这两种幸存者偏差会使满意度偏高。
  2. 对兽医院收治猫咪的调查中忽略了坠落后立即死亡的猫咪,同时也忽略了这种可能性:对于从底层坠落的猫咪,其主人往往持乐观态度,更愿意送到医院救治,而对于从高层坠落的猫咪,其主人往往持悲观态度。
  3. 对返航战机的调查中忽略了被击中坠毁后无法返航的战机,同时也说明能返航的战机中,其表面的弹孔不足以构成致命损伤。
  4. Collins的调查中则忽略了已经破产的公司。不过Collins的结论还存在另外一个严重的由回溯性数据引发的问题: 由 数 据 反 推 结 论 由数据反推结论

科学的调查过程应当是这样的:
a . a. a. 确定研究时间段,如50年。
b . b. b. 确定研究样本,应当是50年前的所有上市公司。
c . c. c. 确定某些具有合理性的评价标准,这些标准要具有一定的客观性,而不是根据公司未来的发展情况确定。
d . d. d. 根据这些评价标准筛选出50年前表现良好的公司。
e . e. e. 将选出的公司与其余公司进行比较,观测它们在40年后的业绩水平,从而确定评价标准是否具有科学性。
而Collins是怎么做的呢?

  • 首先,他选择的是50年后业绩较好的公司,忽略了50年间表现较差已经被市场淘汰的公司。
  • 其次,他从这些公司中寻找共同特点,并进行回溯检验,说明这些特点的合理性,完全忽略了这些标准能否用于预测。
  • 最后,从数据中推导结论存在一种危险:由这种结论产生的标准可能只适用于这批数据,也就是现在机器学习中常说的 过 拟 合 过拟合 如果在其他样本中寻找,根据这种评价标准,在相同样容量约束下,仍能抽到满足要求的样本概率可能非常小,但是如果是已经获得了样本,从样本反推结论,得到这种结论的概率就是1.

举个例子说明由数据反推结论的不合理:某次抽牌中得到了5张牌,看完之后得出结论:我抽到的5张牌中为黑桃的概率为1/5,并且用这个结论去检验样本,当然是成功的。但是这个结论显然不能用于预测我以后的抽牌结果。
所以说,市面上的一些成功秘籍,都存在固有的幸存者偏差和由数据反推结论的错误。如果真的想检验成功秘籍的科学性,最好的做法是将这些秘籍用于预测未来,观察按照这些秘籍行动的人在未来是否取得了成功。

3.

3.1 错误的比较标准

在有的场合,为了消除比较对象自身水平的影响,会采用百分比评价标准,例如:

若某人的月收入为1000元,某天他丢了100元,则他相当于损失了自己10%的收入,这是相当令人心痛的;但如果某人的月收入为10000元,某天不小心丢了100元,则只相当于损失了1%的收入,看起来似乎也没什么要紧的。

但在有的场合,忽略比较对象自身水平进行比较就不合适了,例如:

马萨诸塞州的韦尔弗利特是一座宁静的小镇,盛产牡蛎,但是波士顿的一份报纸却宣称这座小镇是座谋杀小镇,因为其谋杀率非常高: 4 / 10000 4/10000 4/10000。相比之下,波士顿的谋杀率仅为 1.7 / 10000 1.7/10000 1.7/10000

事实当然不是这样,事实上当年韦尔弗利特有1起谋杀案,而且这起谋杀案还是在另一座城市犯罪的罪犯在韦尔弗利特自首被记录下的,但韦尔弗利特仅有2491名居民,而相比之下,当年波士顿发生了98起谋杀案。

3.2 虚假相关
  1. 假如有一家矿产公司要来你的城市开矿,虽然担心环境影响,但该公司根据以往研究指出矿产量和房价存在紧密的正相关,只要答应开矿,那么房屋就会升值。应当相信矿产公司的说法吗?
  2. 一项针对美国啤酒销量和已婚人口的调查表示,两者之间存在高度相关性,所以应当提高啤酒销量,从而提高已婚人口数量。

以上两个例子犯了统计中最常见的错误:

  1. 虚假相关
  2. 虚假因果

虚假相关常常存在于随时间变化存在相同趋势的变量之间,这些变量往往不存在实际的相关性。
例如第2个例子中,实际上啤酒销量和已婚人口都与人口增长有关,而它们之间却显然不存在关系。第1个例子中,住房价格上升可能是自身增值或人口增加导致的。

4 数据还是思想

4.1 错误的计算方法

2010年,哈佛教授Carmen Reinhart和Ken Rogoff发表了一篇论文,认为当政府债务与GDP的比例超过90%时,GDP增长就会受到限制。这项结论有力地支持了通货紧缩政策,欧洲很多政府通过削减开支、提高税收以促进经济增长,然而结果却出乎意料:欧洲2011-2013年的平均失业率逐年增高。

Carmen和Ken是如何得出他们的结论的呢?
他们以20个发达国家为研究对象,考虑其政府债务与GDP比例,以及研究期间内GDP的平均增长率,并将国家按照债务与GDP比例大小划分,发现平均增长率与该比例成反比。
这似乎是确凿的证据了,但是马萨诸塞大学的以为研究生Thomas Herdon在复现他们论文的结果时发现,Carmen和Ken在计算时犯了两个较大的错误:

  1. 选择性忽略数据。通常情况下,如果数据缺失会被忽略,或者采取某种方法插补,但是Carmen和Ken在计算新西兰1947-1951年间的数据时,只选择了1951年的数据,这一年新西兰的债务与GDP之比超过90%,且GDP增长率是-7.6%,而前四年的增长率都是正的。Carmen称新西兰在高债务年份的平均增长率为-7.6%
  2. 采用错误的简单平均计算方法。为了得出所有高债务国家的平均GDP增长率,Carmen将这些国家的GDP做了简单平均。例如英国在19年债务比超过90%,其GDP平均增长率为2.4%,新西兰有1年债务比超过90%,其(错误的)GDP平均增长率为-7.6%,Carmen将这两个数据简单平均,得出平均增长率为-2.6%。

很显然以上两个计算错误导出了错误的结论。首先应当保证数据完整性,其次应当采用加权平均法,按照加权平均得出的平均增长率为1.9%。
这个例子告诉我们,方法本身没有问题,当我们输入一个数据,计算方法总能按照固定程序得出正确的结果,但是方法的应用是否存在问题,就需要我们的认真思考了。

4.2 相关性不等于因果性

仍然是3.1中的例子,当我们看到这样的表格时,我们能真的认为债务比的提高会GDP增速下降吗?

债务比 <30% 30%-60% 60%-90% >90%
平均GDP增长率 4.1 2.8 2.8 -0.1

如果根据经济理论进行分析,实际上应当是经济衰退引发债务比例上升。马萨诸塞大学的Arindrajit Dube教授对二者之间的相关性进行了分析,发现债务比与过去经济增长之间的相关性高于它与未来经济增长之间的相关性。
现在我们常用格兰杰因果检验考察两个变量之间是否存在因果关系以及因果关系的形式。

5. 识别图像中的陷阱

5.1 调整纵坐标轴

收入看起来很平稳

收入在2010年第二季度急剧下降

若财务经理拿出以上两张图来说明公司的经营情况,很显然第一张图更让人放心,因为收入变化很平稳。但如果是第二张图就很令人担心,因为光从高度上看,2010年第二季度收入下降了40%,但实际上却只有2%。

5.2 调整横坐标轴

上图是改变了纵坐标后的结果,再看看改变横坐标会发生什么:
看起来美国公民获得的诺贝尔奖个数显著下降

美国公民获得诺贝尔奖数目仍在上升

第一张图很是令人震惊:美国获得的诺贝尔奖数目遭遇了断崖式下降。但仔细观察会发现,前七个时间段都是10年,但第八个时间段:1971-1971才4年而已。

5.3 将两个图合并

如果将两个图同时绘制在一张图中,问题可能更多:作图者可以尽情选择不同的纵坐标轴。
家庭收入远超物价上涨幅度

物价上涨远超家庭收入

只需要调整两个变量的范围,就能得出不同的结论。如果确实需要讨论物价和收入的关系,则需要用物价指数校正家庭收入,然后再观察家庭收入的增长情况。

6 贝叶斯问题中的悖论

6.1 蒙提·霍尔悖论

蒙提·霍尔悖论来自于美国的一个电视娱乐节目,在这场节目中,三扇门后分别放有一辆汽车和两只山羊,参赛选手需要在三扇紧闭的门中做出选择。
特殊的地方在于,当参数选手第一次做出选择后,主持人需要打开剩下两扇门中的一扇(主持人知道汽车的位置),并露出这扇门后的山羊,然后让参数选手决定是否换门?
问题就在于,有人认为已知另一扇门的状况对当前的选择没有任何影响,中奖的概率是 1 2 \frac 1 2 21,但有的人认为中奖概率会发生改变,如果仍然坚持当前选择,中奖概率会是 1 3 \frac 1 3 31,应当换门。

那么实际应该是什么样的呢?
先用贝叶斯公式做一下,给三扇门编号A,B,C, A 1 A_1 A1表示A门后有车, A 0 A_0 A0表示A门后没有车,其他符号类似。假定选手选了A门,主持人开了C门,露出了C门后的绵羊,那么选手此时的选择获奖的可能是多少?
P ( A 1 ∣ C 0 ) = P ( A 1 ) P ( C 0 ∣ A 1 ) P ( A 1 ) P ( C 0 ∣ A 1 ) + P ( A 0 ) P ( C 0 ∣ A 1 ) = 1 3 × 1 1 3 × 1 + 2 3 × 1 2 = 1 2 P(A_1 |C_0) = \frac{P(A_1 )P(C_0|A_1)}{P(A_1 )P(C_0|A_1 ) + P(A_0)P(C_0|A_1 )} \\\\ = \frac{ \frac1 3 \times 1}{\frac1 3 \times 1 + \frac2 3 \times \frac 1 2} = \frac 1 2 P(A1C0)=P(A1)P(C0A1)+P(A0)P(C0A1)P(A1)P(C0

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值