统计学笔记:赤裸裸的数据任人打扮

拖拖拉拉两个月,终于看完了今年第一本书——《赤裸裸的统计学》,本书作者采用故事性叙述,梳理了统计学中基础而关键的知识点,作为统计学的科普读物,表述更容易让外行人接受。笔者根据自身理解对其中部分内容进行了小结,并结合《数据产品经理必修课:从零经验到令人惊艳》一书的统计学部分内容进行补充,整体以前者为主,感兴趣的同学推荐阅读两本原书。

一、描述性统计

1、均值、中值、分位数

《赤裸裸的统计学》在开篇提出一个问题:美国中产阶级的经济健康状况出了什么问题?通过计算 30 年间美国人均收入,得出人均年收入从 1980 年的 7787 美元上升到 2010 年的 26487 美元。即使不考虑通货膨胀,这个数值也不能很好地回答提出的问题,因为美国人均收入不能代表中产阶级收入水平。从而引出的概念是均值、中值、分位数(定义不再赘述)。
因均值对离群值十分敏感,所以在评价某个目标的整体水平时要谨慎采用。正如我们也对人均收入所吐槽的那样,被老马平均了的话,恐怕是不符合我们对自己收入水平的印象。而用中值,会让我们有更清晰的认知(图源网络,侵删)。
在这里插入图片描述

分位数让我们有更多样的切入点,例如常用的四分位乃至更精细的百分位,前 1% 的人收入是多少?自己处于 n% 的位置?如下图所示,第 90 百分位数是指收入从小到大排序时靠后的一侧,即排名在前 10% 的富人收入,作者由此指出:典型的美国工人挣着中位数工资,在原地踏步了将近 30 年。
在这里插入图片描述

2、方差、标准差

标准差用于衡量数据相对于平均值的分散程度。例如一次航班中旅客的平均体重,极有可能与一次马拉松中运动员的平均体重相当,但显然旅客的体重分布会更加分散,因此标准差还可用于分析两个数据样本是否相似。此外,《赤裸裸的统计学》作者表示:计算方差时对每个数值和平均值之差都进行了平方,离群值会被放大,在描述统计学中,往往不用方差而用标准差。关于这点,笔者在《数据产品经理必修课…》中读到的解释也值得思考——标准差能解答量纲(单位)的意义,仍以体重为例,单位是 k g kg kg,那么在方差计算中 k g 2 kg^{2} kg2 失去了现实意义。另外,其实标准差的诞生比方差早了快20年。公式如下(CSDN 的 LaTeX 求和符号显示有 BUG…):

σ 2 = ∑ i = 1 n ( x i − x ˉ ) 2 n . ( σ 2 为方差, σ 为标准差) \sigma^{2} = \frac{\sum_{i=1}^n(x_{i}-\bar x)^{2}}{n}.(\sigma^{2} 为方差,\sigma 为标准差) σ2=ni=1n(xixˉ)2.σ2为方差,σ为标准差)

二、相关性统计

1、三大相关系数

(1)Pearson

《赤裸裸的统计学》介绍的是 Pearson 相关系数(r),主要用于衡量连续型变量间的线性关系,对满足正态分布的数据表现更好。
r = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) n σ x σ y = c o v ( x , y ) σ x σ y . ( c o v ( x , y ) 为协方差) r = \frac{\sum_{i=1}^n(x_{i}-\bar x)(y_{i}-\bar y)}{n\sigma_{x}\sigma_{y}}= \frac{cov(x,y)}{\sigma_{x}\sigma_{y}}.(cov(x,y)为协方差) r=nσxσyi=1n(xixˉ)(yiyˉ)=σxσycov(x,y).cov(x,y)为协方差)

(2)Spearman Rank

补充记录一下三大相关系数的另外两个。Spearman Rank 相关系数(ρ),生成两个变量在其组内的排位数 U i 和 V i U_{i}和V_{i} UiVi,再计算排位差。主要用于单调关系,可以处理离群值。

xyUVU-V
6652431
8853220
7754312
995114-3

ρ = 1 − 6 ∗ ∑ i = 1 n ( U i − V i ) 2 n ( n 2 − 1 ) . \rho = 1- \frac{6*\sum_{i=1}^n(U_{i}-V_{i})^{2}}{n(n^{2}-1)}. ρ=1n(n21)6i=1n(UiVi)2.

(3)Kendall Rank

Kendall Rank 相关系数(R),和 Spearman 一样利用了排序,不同之处在于 Kendall 先对一个变量进行组内排序,再将另一个变量根据原始对应关系进行排列,根据排位变化得到同序对数量 P (concordant pairs) 。如下表先对 x 排序, 则 V 中的同序对是指排序变化后同步增大的顺序对,例如总顺序对包括:(1,2), (1,3), (1,4), (2,3), (2,4), (3,4),其中 (1,3), (2,3) 是同序对,即 P = 2,其余为异序对(discordant pairs),因为排序变化后 2 排在了 3 的前面且 2 对应的 y > 3 对应的 y(1,3) 同理。R 等于同序对数和异序对数之差除以总对数。

xyUVP
9951140
8853221
7754311
6652430

R = P − ( n ( n − 1 ) 2 − P ) n ( n − 1 ) 2 = 4 P n ( n − 1 ) − 1. R= \frac{P-(\frac{n(n-1)}{2}-P)}{\frac{n(n-1)}{2}} = \frac{4P}{n(n-1)}-1. R=2n(n1)P(2n(n1)P)=n(n1)4P1.

在 pandas 中可以利用 corr() 计算相关系数,通过 method 参数指定计算方法。

2、卡方

《数据产品经理必修课…》在相关系数之前提及了卡方( X 2 X^{2} X2,用于反映两个变量是否相关,基于实际观测值与理论推断值之间的偏离程度来体现。以性别对化妆行为的影响为例,如下表为实际观测值。

合计
化妆1595110
不化妆85590
合计100100200

下表为理论推断值,假设化妆与否与性别不相关,则性别分布应当一致。

合计
化妆5555110
不化妆454590
合计100100200

卡方即为理论值和实际值之差除以实际值的平方和,本例中结果等于 129.3。
X 2 = ∑ i = 1 n ( f i − p i ) 2 p i = ( 15 − 55 ) 2 55 + . . . + ( 5 − 45 ) 2 45 X^{2} =\sum_{i=1}^n \frac{(f_{i}-p_{i})^{2}}{p_{i}}= \frac{(15-55)^{2}}{55}+...+ \frac{(5-45)^{2}}{45} X2=i=1npi(fipi)2=55(1555)2+...+45(545)2

根据卡方值概率表,化妆与否与性别不相关的概率远远小于 0.1%,该假设被推翻,结论即为性别对化妆行为有影响。

P50%25%10%5%1%0.5%0.1%
X 2 X^{2} X20.4551.3232.7063.8416.6357.87910.828

三、概率的现实意义

我们该如何利用概率去思考现实问题?《赤裸裸的统计学》讲述了几个有趣的故事展现了概率的魅力,笔者简述其三。

1、营销

施利茨啤酒在 1981 年的美国橄榄球超级杯大赛中场休息时举行了啤酒品鉴会,施利茨应如何保证多数品酒人给自己的产品好评?当然不是努力提升自家产品品质(因为跟别家的喝起来其实都差不多),而是与竞争对手的啤酒放在一起盲品。
在味道相近的情况下,我们可以认为任意一个品酒人有 50% 的概率盲选出施利茨,而营销的秘诀就是:品酒人不是随机的路人,而是另一个品牌啤酒的爱好者,如此一来,即使最终结果只有不到一半的人蒙中了施利茨,施利茨依然可以说自己从其他品牌的忠实客户中夺取了一部分市场,以说明自家的啤酒更好喝。
比如,10 人中至少 4 人选中施利茨的概率是多少?注意,不是连续 4 人选中的概率( 1 2 4 \frac{1}{2^{4}} 241)。我们可以先想想 3 人中至少 2 人选中的概率:3 人品酒出现的选择组合总共有 2 3 2^{3} 23 即 8 种可能,其中至少有 2 个人选中的组合有 4 种,故所求概率为 50%。

如下,甲、乙、丙三人可能的选择组合,1 表示选中施利茨:
甲乙丙
0 0 0
0 0 1
0 1 0
0 1 1 ←
1 0 0
1 0 1 ←
1 1 0 ←
1 1 1 ←

理解了计算思路后,利用组合公式可求 10 人中至少 4 人选中施利茨的概率约等于 83%,可见施利茨的这场营销胜算很大(实际结果也很成功)。

P ( k ≥ 4 ) = C 10 4 + C 10 5 + . . . + C 10 10 2 10 = 0.828125 P(k≥4)= \frac{C_{10}^{4}+C_{10}^{5}+...+C_{10}^{10}}{2^{10}}=0.828125 P(k4)=210C104+C105+...+C1010=0.828125

书中结果为 98%,但未给出计算过程,若此处笔者理解有误还请路过的大佬指出,Python 计算结果与上述公式一致:

from itertools import product

grp_lst = [i for i in product([1, 0], repeat=10)]
target = [i for i in grp_lst if i.count(1) >= 4]
P = len(target)/len(grp_lst)  # 0.828125 

2、彩票

比起书中用美元的描述,笔者认为换成我们更为熟悉的刮刮乐(笔者一点也不熟)来举例更合适。假设需花 10 元买一张刮刮乐,刮中 5 元的概率是 1/10,刮中 10 元的概率是 1/20,刮中 100 元的概率是 1/50,那么回报期望 p = 5 10 + 10 20 + 100 50 = 3 p= \frac{5}{10}+ \frac{10}{20}+ \frac{100}{50}=3 p=105+2010+50100=3,明显低于投入成本,所以永远不要买彩票!(行善积德也不行吗) 另外虽然保险公司也很擅长玩弄概率,但作者仍表示可以买必要的意外险。

3、三门问题

电视节目主持人蒙提霍尔让你在三扇门中选一扇进行抽奖,一号门:羊 1;二号门:羊 2;三号门:汽车,当你选择一扇门后,主持人会在剩下的门里打开一扇有羊的门,并问你是否要改选。直觉而言,选任意门中奖概率都是 1/3,但改选会使得这个概率上升。
反直觉的点在于,主持人开门前,想中汽车大奖对你而言确实是完全随机的三选一,但主持人是知道每扇门后的答案的,一旦主持人公开一扇门,假如你原本选的是羊,那么你改选就不可能再选到羊,也就是说——改选后中奖的概率等于最初选中羊的概率,是 2/3。

原本选羊 1,主持人开羊 2,改选车
原本选羊 2,主持人开羊 1,改选车
原本选汽车,主持人开羊 1 或 2,改选羊 2 或 1

四、抽样与误差

1、中心极限定理

中心极限定理的核心要义:一个大型样本的正确抽样与其所代表的群体存在相似关系。每个样本之间肯定会存在差异,但是任一样本与整体之间存在巨大差异的概率是较低的。具体的表现是,从同一个群体中多次抽样,每个样本的均值会落在群体均值的周围,呈现正态分布。终于出现了,统计学的王者——正态分布!正态分布是一个中间高两头低的钟形曲线,中间即是均值,抽样落在均值外 1 个标准差内的概率是 68.2%,2 个标准差内的概率是 95.4%,3 个标准差内的概率是 99.7%。
在这里插入图片描述

2、标准误差

而通过计算标准误差,即可知样本均值偏离群体均值的程度,标准误差就是所有样本均值的标准差。作者以寻找失踪的运动员大巴为例,若一辆大巴乘客的体重均值与所有运动员体重均值相差几个标准误差,则这辆车大概率不是要找的目标,以此说明如何判断某个样本是否属于一个大型样本的抽样。
S E = s n . ( s 为群体标准差, n 为样本数量) SE=\frac{s}{\sqrt{n}}.(s 为群体标准差, n为样本数量) SE=n s.s为群体标准差,n为样本数量)

3、百分比标准误差

作者以美国大选民调为例,在最终结果出炉前对 500 人进行选举后调查以预测结果,其中 53% 选择了 A 派,47% 选择了 B 派,那么以选 A 派为目标事件,计算标准误差约等于 2%,此时即有 68% 的把握声称大选中有 51% ~ 55% (53±2)的人投了 A 派的票,有 95% 的把握声称大选中有 49% ~ 57% (53±4)的人投了 A 派的票,采用后者作为大选结果的预测更准确了,但精确度也下降了(误差幅度增大)。上述某事件的人群比例所在的范围,又称作置信区间
但同时,也有 95% 的把握声称大选中有 43% ~ 51% (47±4)的人投了 B 派的票,两个置信区间有所重叠,使得预测结果可信度不高。可通过增加调查人数来减小标准误差,若对 2000 人进行调查后比例基本不改变,则标准误差约等于 1%,此时即有 95% 的把握声称大选中有 51% ~ 55% 的人选了 A 派,45% ~ 49% 的人选了 B 派,可以宣布 A 派的胜利了。

S E = p ( 1 − p ) n . ( p 为目标对象比例, n 为总体对象数量) SE=\sqrt{\frac{p(1-p)}{n}}.(p为目标对象比例,n为总体对象数量) SE=np(1p) .p为目标对象比例,n为总体对象数量)

五、统计推断与假设检验

统计推断,即是基于数据统计去推断现象的成因,在推断过程中最常做的就是假设检验。在进行假设检验时,会设立零假设对立(备择)假设

案例一
零假设:某种新药在预防疟疾方面并没有比安慰剂更加有效。
对立假设:该新药能够帮助预防疟疾。
数据:随机选取一个小组服用新药,另一个小组作为对照组服用安慰剂。一段时间过后,服用新药的小组的疟疾发病率要远低于对照组。如果该新药不具备任何疗效,那么出现这一结果的概率是非常低的。因此,我们推翻该新药没有疗效的零假设,承认其对立假设成立,即该新药能够帮助预防疟疾。


案例二
零假设:为犯人提供戒毒治疗并不能降低他们再次被捕入狱的概率。
对立假设:犯人在坐牢期间接受戒毒治疗,有助于降低他们出狱后再次被捕入狱的概率。
数据:犯人被随机分成两组,治疗组接受戒毒治疗,对照组没有接受治疗。(事实上,很多犯人在服刑期间真的接受了戒除毒瘾的医疗帮助。)5年后,两个小组的犯人再次被捕入狱的比例相近。在这个例子中,我们无法推翻零假设,根据这个数据,我们没有理由推翻一开始“戒毒疗法不能有效地阻止犯人再次入狱”的假设。

通常,推翻零假设所需要的标准为不超过 5%,一般写作 0.05,这个标准被称作显著性水平。在指定的显著性水平下,零假设成立的概率未超过该值,则零假设不成立,对立假设成立。

检验可分单尾检验双尾检验,例如对立假设一:篮球运动员身高比普通人更高;对立假设二:篮球运动员身高与普通人不同,分别对应单尾和双尾。

六、线性关系与回归分析

1、线性回归

据《数据产品经理必修课》,线性回归起源于生物学家高尔顿对父子身高的研究,高尔顿分析了 1078 对父子的身高数据,发现满足一个公式:Y=0.8567+0.516X,其中 X 是父亲的身高,而 Y 是儿子的身高,这便是线性。然而高尔顿还发现,父亲太高时,孩子会变得矮一些;父亲太矮时,孩子会变得高一些,也就是说历代个体的身高总是围绕着一个中心,偏离中心太远时,就会回归,这便是线性回归的由来。而影响孩子身高的变量不仅仅是父亲的身高,还有许多其他的因素,因此公式还可继续优化成:Y=0.8567+0.516X1+b*X2+c*X3+...,也就是说,线性回归可以探索多个变量与另一个变量之间的线性关系。
《赤裸裸的统计学》中也用了类似例子,探究的是体重与身高的关系,并逐步增加了年龄、性别、受教育时间等变量的影响。
在这里插入图片描述
其中还提到了几个重要的概念:

(1)残差

残差,即是每个数据点和直线的垂直距离,落在直线上的点残差即为 0,残差和越小,回归线越准确。
在这里插入图片描述

(2) R 2 R^{2} R2

用以衡量所有能够用回归方程表示的数据总和,反映了回归线与实际样本的拟合程度,越接近 1 表示拟合度越高。
R 2 = 1 − ∑ i = 1 n ( f i − y i ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 ( f i 为预测值, y i 为实际值) . R^{2} = 1- \frac{\sum_{i=1}^n(f_{i}-y_{i})^{2}}{\sum_{i=1}^n(y_{i}-\bar y)^{2}}(f_{i}为预测值,y_{i}为实际值). R2=1i=1n(yiyˉ)2i=1n(fiyi)2fi为预测值,yi为实际值).

(3)最小二乘法

最小二乘法(OLS)就是可找出最佳拟合回归线的方法。笔者对其原理思考良久,不能归纳出比网上资料更简明直观的内容,还是自行查阅资料更方便 ,推荐一篇讲的很好的文章:如何理解最小二乘法?

2、注意易错点

(1)不可用回归方程式来分析非线性关系

(2)相关关系不等于因果关系

(3)不可因果倒置

(4)谨防变量遗漏偏差

(5)避免多元共线性

(6)不可脱离数据进行推断

(7)变量不宜过多

七、实验方法

1、随机控制实验

2、自然实验

3、非对等对照实验

4、差分类差分实验

八、操纵数据,或被操纵

《赤裸裸的统计学》第三章:数字会撒谎、第九章:数据与偏见,笔者将其整合放在最后。在理解了前面的技术性原理后,再来警惕这个双刃剑:数据或许有着它本身的意义,但表达意义的方式和方向是人为操纵的,我们可以从数据中轻易得到希望看到的事实。

1、精确与准确

精确反映了我们描述数据的粒度,准确则是描述数据的方向。不准确的数据,再精确也没有意义。

2、误导性表述

作者举的例子太经典了,笔者不多赘述。

案例一:
政客甲(挑战者):“我们的教育水平正变得越来越糟!2013年有6成学
校的考试成绩低于 2012 年。”
政客乙(在任者):“我们的教育水平正变得越来越好!2013 年有8成学
生的考试成绩高于 2012 年。”

案例二:
政客甲(平民主义者):“我们的经济一塌糊涂!2012 年有30 个州的收
入都出现了下滑。”
政客乙(更接近精英派):“我们的经济走势一片光明。2012年有70%的
美国人的收入都增加了。”

3、偏见造谬论

有时候,看似随机的抽样,也隐藏着意外的偏见。例如在 80 年代进行随机电话民调,看似是一种随机的方式,能够访问到不同的人群,但是在 80年代的家里装了电话本身,就是一个经济指标,受访者人群可能都是较富裕的。幸存者偏差的例子不多赘述。

九、小结

统计学,太有趣了。这里是一头雾水的 Seon塞翁,我们下一篇见。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
统计学:从数据到结论》是一本介绍统计学基本概念和应用的教材或专业书籍。统计学是研究如何收集、整理、分析和解释数据的学科,它在各个领域都有广泛的应用。 这本书主要包含以下内容: 1. 数据收集:介绍了不同的数据收集方法,如调查问卷、实验设计和抽样调查等。它会讲解如何设计合适的实验或调查,以及如何确保数据的准确性和可靠性。 2. 数据整理与总结:介绍了数据整理和数据总结的基本方法,包括数据的分类、统计描述和数据可视化等。通过数据整理和总结,可以更直观地理解数据的特征和规律。 3. 统计推断:介绍了统计推断的概念和方法,包括参数估计和假设检验等。统计推断可以帮助我们从样本中推断总体的特征,并对统计推断结果的可靠性进行评估。 4. 数据分析与模型建立:介绍了常见的数据分析方法,如回归分析、方差分析和聚类分析等。这些方法可以帮助我们发现数据背后的关联和规律,并建立相应的数学模型。 5. 统计结论:最后一部分介绍了如何根据统计分析的结果得出科学的结论,并对结论的可靠性进行评估。同时,还会讨论一些常见的误解和统计陷阱,帮助读者正确应用统计学方法。 通过学习《统计学:从数据到结论》这本书,读者可以了解统计学的基本原理和方法,培养数据分析和推理的能力。这对于从事科学研究、市场调研、医学和社会科学等领域的人员都非常有帮助。同时,这本书也是学习统计学的入门教材,适合初学者使用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值