第一章 程序员的统计思维
本书名言:数据是廉价的(至少相对而言如此),但知识却异常宝贵。
1.三门相互关联的学科
- 概率论
主要研究随机事件。 人们对某些事件发生的可能性高低一般都有直
观的认识, 所以未经特殊训练就会使用“可能”、 “不可能” 之类的
词汇。 - 统计学
统计学旨在根据数据样本推测总情况。 大部分统计分析都基于概
率, 所以这两方面的内容通常兼而有之。 - 计算
量化分析的最佳工具。 计算机是处理统计量的常用工具。 此外, 计
算实验还有助于理解概率论和统计学中的概念。
2.例子:关于是第一个孩子是否出生的晚
在这类讨论中, 人们会用各种数据来证明自己的说法, 常见的例子如下。
“我有两个朋友最近都刚生了第一个孩子, 两个宝宝的出生
时间都比预产期晚了差不多两周。”
“我的第一个孩子晚了两周才出生, 我想我的第二个孩子会
提前两周。”
“我觉得这没道理, 因为我姐姐是我妈妈的第一个孩子, 她
就提前出生了,我的几个表姐也一样。”
诸如此类的传闻称为经验之谈(anecdotal evidence)
这些经验之谈无法作为判断这个例子是否正确的依据
原因如下:
- 观察的数量太少
- 选择偏差
- 确认偏差
- 不准确
统计学手段:
- 收集数据
- 描述性统计
- 探索性数据分析
- 假设检验
- 估计
到这里采用了横 断 面 研 究(cross-sectional study), 意 思 就 是 它 的
数据是一群人在某个时间点的情况。
( 另一种常见方法是纵贯研究
(longitudinal study), 就是在一段时间内反复观察同一群人 。)
术语
- 经验之谈(anecdotal evidence)
个人随意收集的证据, 而不是通过精心设计并经过研究得到的。 - 直观效应(apparent effect)
表示发生了某种有意思的事情的度量或汇总统计量。 - 人为(artifact)
由于偏差、 测量错误或其他错误导致的直观效应。 - 队列(cohort)
一组被调查者。 - 横断面研究(cross-sectional study)
收集群体在特定时间点的数据的研究。 - 字段(field)
数据库中组成记录的变量名称。 - 纵贯研究(longitudinal study)
跟踪群体, 随着时间推移对同一组人反复采集数据的研究。 - 过采样(oversampling)
为了避免样本量过少, 而增加某个子群体代表的数量。 - 总体(population)
要研究的一组事物, 通常是一群人, 但这个术语也可用于动物、 蔬
菜和矿产。 - 原始数据(raw data)
未经或只经过很少的检查、 计算或解读而采集和重编码的值。 - 重编码(recode)
通过对原始数据进行计算或是其他逻辑处理得到的值。 - 记录(record)
数据库中关于一个人或其他对象的信息的集合。 - 代表性(representative)
如果人群中的每个成员都有同等的机会进入样本, 那么这个样本就
具有代表性。 - 被调查者(respondent)
参与调查的人。 - 样本(sample)
总体的一个子集, 用于收集数据。 - 统计显著(statistically significant)
若一个直观效应不太可能是由随机因素引起的, 就是统计显著的。 - 汇总统计量(summary statistic)
通过计算将一个数据集归结到一个数字(或者是少量的几个数字),
而这个数字能表示数据的某些特点。 - 表(table)
数据库中若干记录的集