学习《模型思维》-斯科特·佩奇笔记 9.29

最新推荐文章于 2022-10-17 19:29:34 发布

淡年华零

最新推荐文章于 2022-10-17 19:29:34 发布

阅读量822

点赞数

本文链接：https://blog.csdn.net/weixin_44415209/article/details/108863149

版权

复杂系统专栏收录该内容

4 篇文章

订阅专栏

本文探讨了正态分布的特点，如均值、方差和标准差，以及中心极限定理在众多现象中的作用。通过实例说明了为何罕见事件在小群体中更常见，以及如何避免误解数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

05 正态分布（normal distribution）

分布为事件或价值分配概率。每日降雨量、考试分数或身高的分布为每一个可能的结果值分配一个概率。各种统计量将分布中包含的信息压缩为单个数值，例如均值，分布的平均值。德国黑森林中树木的平均高度可能达到24米，开胸手术后的住院时间平均为5天。社会科学家经常通过均值来比较各个国家的经济和社会条件。2017年，美国的人均国内生产总值为57 000美元，远超法国的42 000美元，但是法国人的平均预期寿命则比美国人高出3年。
均值之外的第二个重要统计量是方差，可以衡量一个分布的离散程度，也就是数据与均值之间距离的平方的平均值。如果分布中的每个点具有相同的值，那么方差等于零。如果一半数据的值为4，一半的值为10，那么平均来说，每个点与均值的距离为3、方差等于9。分布的标准差是另一个常用的统计量，等于方差的平方根。
可能的分布集合是无限的。我们可以在纸上任意画出一条线并将它解释为概率分布。幸运的是，我们经常遇到的分布一般都属于有限的几种类型。最常见的分布就是正态分布，也就是钟形曲线，如图5-1所示。
在这里插入图片描述
正态分布的均值是对称的。如果一个正态分布的均值等于零，那么抽取到大于3的概率等于抽取到小于-3的概率。正态分布的特征在于其均值和标准差（或者等价地，其方差）。也就是说，所有正态分布的图形看上去都是相似的，大约68%的结果在均值的一个标准差内，大约95%的结果在两个标准差内，并且超过99%的结果在三个标准差内。正态分布允许任何大小的结果或事件，不过“大”事件是非常罕见的，与均值距离超过五个标准差的事件发生的概率为200万分之一。
我们可以利用正态分布的规律给各种范围的结果分配概率。如果位于美国威斯康星州密尔沃基市房子的平均面积是2 000平方英尺（1平方英尺≈0.09平方米）、标准差为500平方英尺，那么那里68%的房子面积介于1 500平方英尺到2 500平方英尺之间，95%的房子面积介于1 000平方英尺到3 000平方英尺之间。如果2019年的福特福克斯汽车平均每加仑（1加仑≈3.79升）汽油可以行驶40英里（1英里≈1.6千米），且标准差为每加仑1英里，那么超过99%的福特福克斯汽车每加仑汽油可以行驶37英里至43英里。尽管消费者希望自己的汽车越省油越好，但是一般来说不可能每加仑汽油行驶80英里。

逻辑：中心极限定理

非常多的现象都表现为正态分布：动物和植物的体型大小，学生在考试中的成绩，便利店每天的销售额，海胆的寿命，等等。中心极限定理表明为什么对随机变量求和或取均值会产生正态分布。

中心极限定理

只要各随机变量是相互独立的，每个随机变量的方差都是有限的，且没有任何一小部分随机变量贡献了大部分变差，那N ≥20个随机变量的和就近似一个正态分布。

中心极限定理一个非常重要的特征是，随机变量本身不一定是正态分布的。它们可以有任何分布，只要每一个随机变量都具有有限的方差，并且它们中的任何一小部分随机变量都不贡献大部分方差。假设，在一个500人的小城镇中，人们的购买行为数据显示，每个人平均每个星期花费100美元。在这些人中，可能有些人这个星期只花50美元、下个星期则花150美元，另一部分人可能每3个星期花费300美元。而其他人则可能每个星期的花费在20至180美元之间。只要每个人的支出都只有有限的变差并且没有任何一小部分人贡献了大部分变差，那么分布的总和必定是一个正态分布，其均值为50 000美元。每个星期的总支出也将是对称的：可能高于55 000美元，也可能低于45 000美元。根据同样的逻辑，人们购买的香蕉、牛奶以及炸玉米饼的数量也都是正态分布的。

我们还可以应用中心极限定理来解释人类身高的正态分布。一个人的身高取决于基因、环境以及两者之间的相互作用。基因的贡献率可能高达80%，因此不妨假设身高只取决于基因。研究表明，至少180个基因有助于人体长高。例如，一个基因可能有助于长出较长的颈部或头部，另一个基因可能有助于长出更长的胫骨。虽然基因之间存在相互作用，但我们可以假设在“长高”这件事情上，每个基因都是相互独立的。如果身高等于180个基因贡献的总和，那么身高将呈现正态分布。相同的逻辑可以证明，狼的体重和大熊猫的拇指长度也是如此。

功能：应用分布知识

我们对正态分布的第一个应用将揭示：为什么罕见结果在规模小的群体中更常见，为什么最好的学校往往规模较小，为什么癌症发病率最高的郡县人口较少。回想一下，在一个正态分布中，95%的结果位于两个标准偏差内，99%的结果位于三个标准偏差内，根据中心极限定理，一组独立随机变量的均值将是正态分布的（当然方差要满足前述要求）。由此可见，我们可以非常确信：考试分数的总体平均值也将是正态分布的。然而，随机变量平均值的标准差并不等于变量标准差的平均值，而且总和的标准差也不等于标准差的总和。相反，这些关系取决于总体大小的平方根。

平方根法则（The square root rules）
N 个相互独立的随机变量，都具有标准差σ ，对这些随机变量的值的标准差σ μ 和对这些随机变量总和的标准差σ Σ ，分别由以下公式给出：
在这里插入图片描述
均值的标准差公式表明，大的总体的标准差要比小的总体的标准差低得多。由此可以推断，在小的群体中应该会观察到更多的好事和更多的坏事。事实上我们确实观察到了：最安全的居住地是小城镇，但最不安全的地方也是小城镇；肥胖率和癌症发病率最高的那些郡县的人口较少。这些事实都可以通过标准差的差异来解释。

如果不考虑样本量，直接根据离群值（异常值）推断因果关系可能会导致相当糟糕的政策行为。出自这个原因，美国统计学家霍华德·魏纳（Howard Wainer）将均值标准差公式称为“世界上最危险的方程式”。例如，在20世纪90年代，盖茨基金会和其他一些非营利机构以“最好的学校都是小学校”为依据，倡导将大学校分拆为小学校。为了揭示这种推理的逻辑缺陷，试想一下，现在有两所学校，一所是只有100名学生的小学校，另一所是有1 600名学生的大学校，并假设这两所学校学生的成绩均来自相同的分布，平均分为100，标准差为80。在小学校中，平均值的标准差等于8，即学生成绩的标准差80除以学生人数的平方根10。而在大学校中，平均值的标准差则等于2。

如果以平均分为标准，把那些平均成绩在110以上的学校称为“优秀”，把平均成绩在120以上的学校称为“非常优秀”，那么将只有小学校才有可能达到这个标准。对于小学校而言，平均成绩为110时，只比总体均值高出了1.25个标准差，这类事件发生的概率大约为10%。而平均成绩为120时，则比总体均值高出了2.5个标准差，这类事件大约150所学校发生一次。对大学校进行相同的计算时，我们却会发现“优秀”阈值意味着比均值高5个标准差，而“非常优秀”阈值则比均值高10个标准差！实际上这类事件永远不会发生。因此，最好的那些学校普遍规模较小这个“事实”并不能证明小学校的表现更好。即便学校规模本身完全没有影响，“最好的学校都很小”这种事情也会发生，因为平方根法则会起作用。