零基础开始AI——PML翻译：第二章概率：单变量模型（第一部分基础）

安仔都有人用

已于 2024-08-30 15:39:44 修改

阅读量52

点赞数 1

分类专栏： Probabilistic Machine Learning 文章标签： PML 概率论常见分布随机变量的转换中心极限定理蒙特卡罗估计 log-sum-exp

于 2024-08-30 00:00:36 首次发布

原文链接：https://probml.github.io/pml-book/book1.html

版权

Probabilistic Machine Learning 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

2.1 引言

在这一章中，我们将简要介绍概率论的基础知识。有许多好的书更详细，例如[GS97；BT08；Cha21]。

[GS97]:C. M. Grinstead and J. L. Snell. Introduction to probability (2nd edition). American Math- ematical Society, 1997.

[BT08]:D. Bertsekas and J. Tsitsiklis. Introduction to Probability. 2nd Edition. Athena Scientific, 2008.

[Cha21]:S. H. Chan. Introduction to Probability for Data Science. Michigan Publishing, 2021.

2.1.1 什么是概率

概率论不过是一种简化为计算的常识。——皮埃尔·拉普拉斯，1812年

我们都习惯于说，一个（公平的）硬币掷出正面的概率是50%。但这是什么意思呢？实际上，有两种不同的概率解释。一种被称为频率主义（frequentist）解释。在这种观点中，概率表示可以多次发生的事件的长期频率。例如，上述陈述意味着，如果我们多次抛掷硬币，我们期望它大约一半的时间会掷出正面。

另一种解释称为贝叶斯（Bayesian）解释概率。在这种观点中，概率用于量化我们对某事物的不确定性或无知；因此，它与信息相关，而不是重复试验相关。在贝叶斯观点中，上述陈述意味着我们相信硬币在下一次抛掷时掷出正面或反面的可能性是相等的。

贝叶斯解释的一个重大优点是，它可以用来对没有长期频率的一次性事件的不确定性建模。例如，我们可能想要计算至2030年北极冰盖融化的概率。这个事件将会发生零次或一次，但不能重复发生。尽管如此，我们应该能够量化对这一事件的不确定性；根据我们认为这一事件有多大可能性，我们可以决定如何采取最优行动。因此，在本书中我们将采用贝叶斯解释。幸运的是，无论采用哪种解释，概率论的基本规则都是相同的。

2.1.2 不确定性类型

我们的预测中的不确定性可以由两种根本不同的原因引起。第一种是由于我们对产生数据的潜在隐藏原因或机制的无知而产生的。这被称为认知不确定性，因为认识论是用来描述知识研究的哲学术语。然而，对此的更简单的术语是模型不确定性。第二种不确定性来源于固有变异性，即使我们收集更多数据也无法减少。这有时被称为随机不确定性[Hac75; KD09]，源自拉丁词“dice”，尽管一个更简单的术语应该是数据不确定性。作为一个具体的例子，考虑抛掷一个公平的硬币。我们可能确定地知道正面的概率是p = 0.5，因此没有认知不确定性，但我们仍然无法完美地预测结果。

这种区别对于诸如主动学习等应用程序可能很重要。一种典型的策略是查询那些熵 $\mathbb{H}(p(y|x,D))$ 较大的示例（其中H(p) 是熵，在第6.1节中讨论）。然而，这可能是由于对参数的不确定性造成的，即，H(p(θ|D))较大，或者仅仅是由于结果的固有变异性造成的，对应于p(y|x, θ)的大熵。在后一种情况下，收集更多的样本可能没有多大用处，因为我们的不确定性不会因此减少。更多关于这一点的讨论，请参见 [Osb16]。

[Hac75]:I. Hacking. The Emergence of Probability: A Philosophical Study of Early Ideas about Probability, Induction and Statistical Infer- ence. Cambridge University Press, 1975.

[KD09]:A. D. Kiureghian and O. Ditlevsen. “Aleatory or epistemic? Does it matter?” In: Structural Safety 31.2 (2009), pp. 105–112.

[Osb16]:I. Osband. “Risk versus Uncertainty in Deep Learning: Bayes, Bootstrap and the Dangers of Dropout”. In: NIPS workshop on Bayesian deep learning. 2016.

2.1.3 概率作为逻辑的延伸

在这一节中，我们按照[Jay03]的介绍，将概率视为布尔逻辑的延伸，回顾概率的基本规则。

[Jay03]:E. T. Jaynes. Probability theory: the logic of science. Cambridge university press, 2003.

2.1.3.1 事件发生的概率

我们将一个事件表示为二进制变量 A，并定义为世界的某种状态，该状态可能存在，也可能不存在。例如，A 可能是事件“明天会下雨”，或“昨天下雨了”，或“标签为 y = 1”，或“参数 θ 介于 1.5 和 2.0 之间”等等。表达式 Pr(A) 表示您相信事件 A 为真的概率（或者事件 A 发生的长期频率）。我们要求 0 ≤ Pr(A) ≤ 1，其中 Pr(A) = 0 表示事件肯定不会发生，而 Pr(A) = 1 表示事件肯定会发生。我们使用 $Pr(\bar A)$ 来表示事件 A 不发生的概率；这被定义为 $Pr(\bar A) = 1- Pr(A)$ 。

2.1.3.2 两个事件的联合概率

我们将同时发生事件 A 和事件 B 的联合概率表示为如下：

$Pr(A\wedge B) = Pr(A,B) \qquad (2.1)$

如果事件 A 和事件 B 是独立事件，我们有：

$Pr(A,B) = Pr(A)Pr(B) \qquad (2.2)$

举例来说，假设 X 和 Y 是从集合 $\chi =\{1,2,3,4\}$ 中随机选择的,且令 A 表示 X ∈ {1, 2} 的事件，B 表示 Y ∈ {3} 的事件。那么我们有 Pr(A,B) = Pr(A) Pr(B) = $\frac{1}{2} \cdot \frac{1}{4}$ 。

2.1.3.3 两个事件的并集的概率

事件 A 或 B 发生的概率由以下给出：

$Pr(A\vee B) = Pr(A) +Pr(B) -Pr(A \wedge B) \qquad (2.3)$

如果事件是互斥的（因此它们不能同时发生），就有：

$Pr(A\vee B) = Pr(A) +Pr(B) \qquad (2.4)$

举例来说，假设 X 是从集合 $\chi =\{1,2,3,4\}$ 中随机选择的。令 A 表示 X ∈ {1, 2} 的事件，B 表示 X ∈ {3} 的事件。那么我们有 Pr(A ∨ B) = $\frac{1}{2} + \frac{1}{4}$ 。

2.1.3.4 给定另一个事件的条件概率

我们将事件 A 已发生的条件下事件 B 发生的条件概率定义为如下：

$Pr(B|A) = \frac{Pr(A,B)}{Pr(A)} \qquad (2.5)$

如果 Pr(A) = 0，则此条件概率未定义，因为我们不能将条件应用于不可能事件。

2.1.3.5 事件的独立性

如果满足下面的条件，我们说事件A独立于事件B：

$Pr(A,B)=Pr(A)Pr(B) \qquad (2.6)$

2.1.3.6 事件的条件独立性

如果满足下面的式子，就说，给定事件C，事件A和B是条件独立的:

$Pr(A,B|C) =Pr(A|C)Pr(B|C) \qquad (2.7)$

这通常写作 $A\perp B |C$ 。事件之间通常彼此依赖，但如果我们根据相关的中间变量进行条件化，它们可能变得独立，这一点我们稍后在本章中会更详细地讨论。

2.2 随机变量

假设 X 代表某个未知的感兴趣的数量，比如掷骰子时它会掷出什么面，或者当前时刻外面的温度。如果 X 的值未知或可能发生变化，我们称之为随机变量或rv。可能值的集合，表示为 X，称为样本空间或状态空间。事件是给定样本空间中一组结果。例如，如果 X 表示掷出的骰子的面，那么 X = {1, 2, . . . , 6}，“看到1”的事件表示为 X = 1，"看到奇数"的事件表示为 X ∈ {1, 3, 5}，"看到1到3之间的数字"的事件表示为 1 ≤ X ≤ 3，等等。

2.2.1 离散随机变量

如果样本空间 X 是有限的或可数无限的，则称 X 为离散随机变量。在这种情况下，我们用 Pr(X = x) 表示 X 取值为 x 的事件的概率。我们将概率质量函数或 PMF 定义为一个函数，它计算随机变量为每个可能值对应的事件的概率：

$p(x) = Pr(X =x) \qquad (2.8)$

概率质量函数PMF满足以下性质：0 ≤ p(x) ≤ 1 和 $\sum_{x\in\chi } p(x) =1$ 。

如果 X 有有限数量的值，比如 K，那么概率质量函数可以表示为一个包含 K 个数字的列表，我们可以将其绘制成直方图。例如，图2.1显示了两个在 X = {1,2,3,4} 上定义的概率质量函数。在左侧，我们有一个均匀分布，p(x) = 1/4；而在右侧，我们有一个退化分布， $p(x) =I(x = 1)$ ，其中 $I()$ 是二元指示函数(又叫示性函数)。因此，图2.1(b)中的分布表示 X 总是等于值 1。因此我们看到随机变量也可以是常数。

2.2.2 连续随机变量

如果 X ∈ R 是一个实数，它被称为连续随机变量。在这种情况下，我们不能再创建一个有限（或可数）的可能值集合。然而，我们可以将实数线分成可数个区间。如果我们将事件与这些区间相关联，我们就可以使用上述讨论过的离散随机变量的方法。简单来说，我们可以通过让区间的大小收缩到零来表示 X 取特定实值的概率，如下所示。

2.2.2.1 累积分布函数（CDF）

定义事件 A=(X≤a), B=(X≤b) 和 C=(a<X≤b)，其中 a<b。我们有 B = A ∨ C，并且由于 A 和 C 是互斥的，所以根据求和规则得：

$Pr(B)=Pr(A) +Pr(C) \qquad (2.9)$

因此，区间 C 中的概率为：

$Pr(C) = Pr(B)-Pr(A) \qquad (2.10)$

一般来说，我们将随机变量 X 的累积分布函数（ cdf）定义如下：

$P(x) = Pr(X \leq x) \qquad (2.11)$

（请注意，我们使用大写字母 P 来表示累积分布函数。）利用这一点，我们可以计算在任何区间内的概率如下：

$Pr(a < X \leq b) = P(b) - P(a) \qquad (2.12)$

累积分布函数是单调非减函数。请参见图2.2a作为一个例子，其中我们展示了标准正态分布的累积分布函数；有关详细信息，请参见第2.6节。

2.2.2.2 概率密度函数（pdf）

我们将概率密度函数（ pdf）定义为累积分布函数的导数：

$p(x) = \frac{d}{dx}P(x) \qquad (2.13)$

（请注意，这个导数并不总是存在，如果不存在，则 pdf 未定义。）请参见图2.2b作为一个例子，其中我们展示了单变量高斯分布的概率密度函数（详情请参见第2.6节）。给定一个概率密度函数，我们可以计算连续变量落入有限区间的概率如下：

$Pr(a < X \leq b) = \int_{a}^{b}p(x)dx=P(b)-P(a) \qquad (2.14)$

随着区间的尺寸变小，我们可以写成： Pr(x < X ≤ x + dx) ≈ p(x)dx 直观地说，这表示 X 在 x 周围一个小区间内的概率等于 x 处的密度乘以区间的宽度。

2.2.2.3 分位数

如果累积分布函数 P 是严格单调递增的，则它具有一个反函数，称为逆累积分布函数，或百分位点函数（ppf），或分位数函数。

如果 P 是 X 的累积分布函数，则 $P^{-1}(q)$ 是值 $x_q$ ，使得 $Pr(X \leq x_q) = q$ ；这被称为 P 的 q 分位数。值 $P^{-1}(0.5)$ 是分布的中位数，左侧和右侧的概率质量各占一半。值 $P^{-1}(0.25)$ 和 $P^{-1}(0.75)$ 分别是下四分位数和上四分位数。例如，假设 $\Phi$ 是高斯分布 N(0,1) 的累积分布函数， $\Phi ^{-1}$ 是逆累积分布函数。然后， $\Phi ^{-1}(\alpha /2)$ 左侧的点包含了 α/2 的概率质量，如图2.2b所示。根据对称性， $\Phi ^{-1}(1-\alpha /2)$ 右侧的点也包含了 α/2 的概率。因此，中心区间 $(\Phi^{-1}(0.025),\Phi^{-1}(0.975))$ 包含了 1 - α 的概率质量。如果我们设置 α = 0.05，那么中心的 95% 区间则为：

$(\Phi^{-1}(0.025),\Phi^{-1}(0.975))=(-1.96,1.96) \qquad (2.16)$

如果分布是 N(μ, σ^2)，那么 95% 的区间变为 (μ - 1.96σ, μ + 1.96σ)。这通常被近似为写成 μ ± 2σ。

2.2.3 相关随机变量的集合

在这一节中，我们讨论一组相关随机变量的分布。

首先假设我们有两个随机变量 X 和 Y。我们可以使用 p(x,y) = p(X = x,Y = y) 来定义两个随机变量的联合分布，对于 X 和 Y 的所有可能取值。如果两个变量都具有有限的基数，我们可以将联合分布表示为一个二维表，其中所有条目的总和为一。例如，考虑以下具有两个二元变量的示例：

如果两个变量是独立的，我们可以将联合分布表示为两个边缘分布的乘积。如果两个变量都具有有限的基数，我们可以将二维联合表分解为两个一维向量的乘积，如图2.3所示。

给定一个联合分布，我们将随机变量的边缘分布定义如下：

$p(X=x) = \sum_y p(X=x,Y=y) \qquad (2.17)$

在这里，我们对 Y 的所有可能状态进行求和。这有时被称为求和规则或总概率规则。我们类似地定义 p(Y = y)。例如，从上述二维表中，我们看到 p(X = 0) = 0.2 + 0.3 = 0.5，p(Y = 0) = 0.2 + 0.3 = 0.5。（“边缘”一词来源于会计中在表的侧边或边缘上写入行和列的总和。）我们使用以下公式定义随机变量的条件分布：

$p(Y=y|X=x) = \frac{p(X=x,Y=y)}{p(X=x)} \qquad (2.18)$

我们可以重新排列这个等式，得：

$p(x,y) = p(x)p(y|x) \qquad (2.19)$

这被称为乘法规则。

通过将乘法规则推广到 D 个变量，我们得到概率的链式规则：

$p(x_1;D)=p(x_1)p(x_2|x_1)p(x_3|x_1,x_2)p(x4|x_1,x_2,x_3)\cdots p(x_D|x_{1:D-1})$ $(2.20)$

这提供了一种从一组条件分布创建高维联合分布的方法。我们在第3.6节中会更详细地讨论这一点。

2.2.4 独立性和条件独立性

如果可以将联合分布表示为两个边缘的乘积（参见图2.3），即， X 和 Y 是无条件独立的或边缘独立的，表示为 X ⊥ Y 。

$X\perp Y \Leftrightarrow p(X,Y)=p(X)p(Y) \qquad (2.21)$

一般来说，如果对于所有子集 {X1,...,Xm} ⊆ {X1,...,Xn}，联合分布可以写成所有边缘的乘积，我们称变量集合 X1, . . . , Xn 是（互相）独立的，即：

$p(X_1,\cdots,X_m) = \prod \limits_{i=1}^mp(X_i) \qquad (2.22)$

例如，如果以下条件成立，我们说 X1、X2、X3 互相独立：p(X1, X2, X3) = p(X1)p(X2)p(X3)，p(X1, X2) = p(X1)p(X2)，p(X2, X3) = p(X2)p(X3)，以及 p(X1, X3) = p(X1)p(X3)。

不幸的是，无条件独立性很少见，因为大多数变量可以影响许多其他变量。然而，这种影响通常是间接的而不是直接的。如果条件联合可以写成条件边缘的乘积，那么，我们称在给定 Z 的情况下，X 和 Y 是条件独立（CI）：

$X \perp Y | Z \Leftrightarrow p(X,Y|Z) = p(X|Z)p(Y|Z) \qquad (2.23)$

我们可以将假设写成一个图形链： X − Z − Y，它符合这样的直觉：所有 X 和 Y 之间的依赖关系都通过 Z 。通过使用更大的图形链，我们可以定义复杂的联合分布；这些被称为图模型，在第3.6节中进行了讨论。

2.2.5 分布的矩

在本节中，我们将介绍可从概率分布（pdf 或 pmf）导出的各种汇总统计量。

2.2.5.1 分布的平均值

我们最熟悉的分布属性是均值或期望值，通常用 μ 表示。对于连续随机变量，均值的定义如下：

$\mathbb{E}[X]=\int_x xp(x)dx \qquad (2.24)$

如果积分不是收敛的，平均值就没有定义；我们稍后会看到一些这方面的例子。

对于离散随机变量，平均值的定义如下：

$\mathbb{E}[X] = \sum_x xp(x) \qquad (2.25)$

不过，这只有在 x 的值以某种方式排序时才有意义（例如，它们代表整数计数）。

由于均值是一个线性操作，我们可以得出：

$\mathbb{E}(aX+b) = a\mathbb{E}(X) + b \qquad (2.26)$

这就是所谓的期望的线性性。

对于一组 n 个随机变量，可以证明其和的期望值如下：

如果它们是独立的，则它们的乘积的期望值为

2.2.5.2 分布的方差

方差是分布 "聚散 "的度量，通常用 σ^2 表示。其定义如下：

由此我们可以得出有用的结果

标准偏差的定义是：

这很有用，因为它的单位与 X 本身相同。

随机变量的平移和缩放的方差由以下公式给出：

如果我们有一组 n 个独立的随机变量，它们的和的方差由它们的方差之和给出：

它们的乘积方差也可以推导如下：

2.2.5.3 分布众数

分布的众数是指概率质量或概率密度最高的值：

如果分布是多峰的，那么众数可能不是唯一的，如图2.4所示。此外，即使有一个唯一的众数，这个点也可能不是分布的最好的summary。

2.2.5.4 条件矩

当我们有两个或两个以上的随机变量时，我们可以根据对另一个随机变量的了解来计算其中一个随机变量的矩。例如，迭代期望定律（又称总期望定律）：

为了证明这一点，我们不妨简单假设 X 和 Y 都是离散的随机变量。那么有：

为了给出更直观的解释，请看下面这个简单的例子。假设 X 是灯泡的使用寿命，Y 是灯泡的生产工厂。假设 E [X|Y = 1] = 5000，E [X|Y = 2] = 4000，表明工厂 1 生产的灯泡寿命更长。假设工厂 1 供应 60% 的灯泡，那么 p(Y = 1) = 0.6，p(Y = 2) = 0.4。那么灯泡的预期寿命为：

方差也有类似的公式。特别是总方差定律，也称为条件方差公式：

为了理解这一点，让我们定义条件矩： $\mu_{X|Y} = \mathbb{E}[X|Y]$ ， $s_{X|Y}=\mathbb{E}[X^2|Y]$ ，以及 $\sigma^2_{X|Y} = \mathbb{V}[X|Y] = s_{X|Y}-\mu^2_{X|Y}$ ，它们都是 Y 的函数（因此是随机量）。那么则有：

为了对这些公式有一些直观的了解，请考虑 K 个高斯分布的组合。令Y为隐藏指示变量，用于指定我们使用的是哪个成分，且令 $X=\sum\limits_{y=1}^K \pi_y N(X|\mu_y,\sigma_y)$ 。在图2.4中，我们有π1 = π2 = 0.5，μ1 = 0，μ2 = 2，σ1 = σ2 = 0.5。因此:

因此，我们可以得到这样一个直观的结果：X 的方差主要取决于它是从哪个中心点提取的（即均值的差异），而不是每个中心点周围的局部方差。

译者注：

1.   每个中心点（类别）周围的局部方差：这部分方差反映了在给定类别 Y=y 的条件下，X 在该类别内的波动。这个值通过 $\mathbb{E}[\text{Var}(X \mid Y)]$ 来衡量。
   •   在前面的例子中，这个值计算为 $\mathbb{E}[\text{Var}(X \mid Y)] = 0.25$ 。
   •   这个值相对较小，表示在每个类别（中心点）内，X 的波动性较小。

2.   不同中心点（类别）之间的均值差异所引起的方差：这部分方差反映了不同类别之间的均值差异带来的总体方差。这部分通过 $\text{Var}[\mathbb{E}[X \mid Y]]$ 来衡量。
   •   在前面的例子中，这个值计算为 $\text{Var}[\mathbb{E}[X \mid Y]] = 1$ 。
   •   这个值较大，表示不同类别之间均值的差异显著地影响了 X 的总体方差。

2.2.6 汇总统计(summary statistics)的局限性

尽管使用均值和方差等简单的统计量来概括概率分布（或从分布中采样的点）是很常见的，但这样做会丢失很多信息。图 2.5 所示的Anscombe’s quartet[Ans73]就是一个鲜明的例子。图中显示了 4 个不同的 (x, y) 数据集，它们都具有相同的均值、方差和相关系数 ρ（定义见第 3.1.2 节）：E [x] = 9, V [x] = 11, E [y] = 7.50, V [y] = 4.12, ρ = 0.816.4 然而，这些点的联合分布 p(x, y) 显然非常不同。安斯科姆发明这些数据集（每个数据集由 10 个数据点组成）的目的是为了反驳统计学家的观点，即数字统计优于数据可视化[Ans73]。

[Ans73]:F. J. Anscombe. “Graphs in Statistical Anal- ysis”. In: Am. Stat. 27.1 (1973), pp. 17–21.

图 2.6 显示了这一现象的一个更为显著的例子。它由一个看起来像恐龙的数据集和另外 11 个数据集组成，所有数据集都具有相同的低阶统计量。这组数据集被称为 Datasaurus Dozen [MF17]。(x, y) 点的精确值可从网上获取。它们是通过模拟退火算法得出的，这是一种无导数优化方法，我们将在本书的续集[Mur23]中讨论这种方法。

[MF17]:J. Matejka and G. Fitzmaurice. “Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing”. In: Proceed- ings of the 2017 CHI Conference on Human Factors in Computing Systems. Association for Computing Machinery, 2017, pp. 1290– 1294.

(正在优化的目标函数衡量的是：原始恐龙目标的汇总统计的偏差，以及特定目标形状的距离。)同样的模拟退火方法可以应用于一维数据集，如图2.7所示。我们看到所有的数据集都非常不同，但它们都具有相同的中位数和四分位数区间，正如中间箱形图的中心阴影部分所示。一种更好的可视化方法被称为小提琴图，如右图所示。这显示了垂直轴上分布的一维核密度估计（第16.3节）的两个副本，除了中位数和IQR标记之外。这种可视化方法更能区分分布之间的差异。然而，这项技术仅限于一维数据。

2.3 贝叶斯定理

贝叶斯定理对概率论就像毕达哥拉斯定理对几何学。

— 哈罗德·杰弗里斯爵士，1973 [Jef73]。

在本节中，我们将讨论贝叶斯推理的基础知识。根据韦氏词典，“推理”一词的意思是“从样本数据到一般性结论的推断过程，通常伴随着计算出的确定程度”。术语“贝叶斯”用于指代推理方法。

使用概率论表示“确定度”，并利用贝叶斯定理，根据数据更新确定度。

贝叶斯定理本身非常简单：它只是一个用于计算未知（或隐藏）数量H可能值的概率分布的公式，给定一些观测数据Y = y：

由此自动得出：

这本身就源于概率的乘积规则。

在公式 (2.51) 中，p(H) 一词表示我们在看到任何数据之前对 H 的可能值的了解；这称为先验分布。如果H有K个可能的值，那么p(H)是一个包含K个概率的向量，这些概率加起来等于1。术语 p(Y |H = h) 表示在 H = h 的情况下，我们期望看到Y的可能结果的分布；这被称为观测分布。当我们在对应于实际观察到的数据点 y 进行评估时，得到的函数是 p(Y = y|H = h)，这被称为似然（likelihood)函数。（请注意，这是关于 h 的函数，因为 y 是固定的，但它不是概率分布，因为它求和不为一。）将先验分布 p(H = h) 乘以似然（likelihood）函数 p(Y = y|H = h) 对每个 h 进行运算，得到未经归一化的联合分布 p(H = h, Y = y)。我们可以通过除以 p(Y = y) 来将其转换为归一化分布，该分布被称为边缘似然(likelihood)，因为它是通过对未知的 H 进行边缘化计算得到的：

译者注：

似然函数衡量的是给定参数下，观测数据y出现的“可能性”或“似然性”。

通过对每个 h 计算 p(H = h, Y = y)/p(Y = y) 来对联合分布进行归一化，得到后验分布 p(H = h|Y = y)；这代表了我们关于 H 可能取值的新概率状态。

我们可以将贝叶斯定理概括如下：

在这里，我们使用符号 ∝ 表示 "成比例"，因为我们忽略了分母，它只是一个常数，与 H 无关。在给定相关观测数据的情况下，使用贝叶斯定理更新某些相关量的未知值的分布，称为贝叶斯推断，或后验推断。它也可以称为概率推断。

下面我们举几个贝叶斯推断的简单例子。在本书的后面，还将看到更多有趣的例子。

2.3.1 示例：COVID-19检测

假设您认为自己可能感染了 COVID-19，这是一种由 SARS-CoV-2 病毒引起的传染病。您决定接受诊断测试，并希望通过测试结果来确定自己是否受到感染。

设 H = 1 表示您被感染，H = 0 表示您未被感染。如果检测结果呈阳性，则让 Y =1；如果检测结果呈阴性，则让 Y =0。我们将计算 h∈{0,1} 时的p(H=h|Y =y)，其中 y 是观察到的测试结果。(为简洁起见，将分布[p(H = 0|Y = y)，p(H = 1|Y = y)]写成 p(H|y)）。我们可以将其视为二元分类的一种形式，其中 H 是未知类标签，y 是特征向量。

首先，我们必须明确似然（likelihood）。它的质量显然取决于检验的可靠程度。有两个关键参数。灵敏度（又称真阳性率）定义为 p(Y=1|H=1)，即在真相为阳性的情况下，检测结果为阳性的概率。假阴性率的定义是1减去灵敏度。特异性（又称真阴性率）定义为 p(Y=0|H=0)，即在真相为阴性的情况下，检测结果为阴性的概率。假阳性率的定义是1减去特异性。表 2.1 总结了所有这些数据（详见第 5.1.3.1 节）。根据 https://nyti.ms/31MTZgV，链接。我们将灵敏度设为 87.5%，特异度设为 97.5%。

接下来，我们必须指定先验值。p(H = 1) 表示疾病在您居住地区的流行率。我们将其设为 p(H = 1) = 0.1（即 10%），这是 2020 年春季纽约市的流行率。(选择这个例子是为了与 https://nyti.ms/31MTZgV 中的数字相匹配）。

现在假设你的测试结果呈阳性。则有：

因此，你被感染的几率为 79.5%。

现在假设你的检测结果为阴性。您被感染的概率为:

因此，你被感染的几率只有 1.4%。

如今 COVID-19 的患病率要低得多。假设我们使用 1% 的基础率，重新计算；则后验概率分别降低到 26% 和 0.13%。

即使在进行了阳性测试后，你只有 26% 的机会感染 COVID-19，这事实上是非常违反直觉的。原因在于，一个阳性测试更有可能是假阳性，而不是由于疾病引起的，因为该疾病很少见。为了看清这一点，假设我们有一个人口为 100,000 的人群，其中有 1000 人感染了病毒。在被感染者中，有 875 = 0.875 × 1000 人测试呈阳性；而在未感染者中，有 2475 = 0.025 × 99,000 人测试呈阳性。因此，阳性测试的总数为 3350 = 875 + 2475，因此在阳性测试后感染的后验概率为 875/3350 = 0.26。

当然，上述计算假定我们知道测试的敏感性和特异性。参见[GC20]了解在这些参数不确定时如何应用贝叶斯进行诊断测试。

[GC20]:A. Gelman and B. Carpenter. “Bayesian anal- ysis of tests with unknown specificity and sen- sitivity”. In: J. of Royal Stat. Soc. Series C medrxiv;2020.05.22.20108944v2 (2020).

2.3.2 示例：蒙提霍尔问题

在本节中，我们将思考贝叶斯定理一个“不够严肃”的应用。特别是，我们将其应用于著名的蒙提·霍尔问题。

想象一个游戏节目，规则如下：有三扇门，标有1、2、3。一个奖品（例如一辆汽车）被藏在其中一扇门后面。你可以选择其中一扇门。然后，游戏主持人会打开另外两扇门中的一扇（不是你选择的那扇），打开的这扇门不透露奖品的位置。然后，你将被要求重新选择门：你可以坚持你的第一次选择，或者你可以换到另一扇关闭的门。然后所有的门都会被打开，你将获得你最后选择的门后面的东西。

例如，假设你选择了门1，而游戏主持人打开了门3（按照规则，门后面没有奖品）。你应该（a）坚持选择门1，还是（b）换到门2，还是（c）两者都没有区别？

直觉上，似乎这不应该有任何区别，因为你最初选择的门不能影响奖品的位置。然而，主持人打开门3的事实告诉我们一些关于奖品位置的信息，因为他的选择是在了解真实位置和你的选择的情况下做出的。正如我们将在下面所示的，如果你换到门2，你实际上有两倍的机会赢得奖品。

为了证明这一点，我们将使用贝叶斯定理。让Hi表示奖品在门i后面的假设。我们做出以下假设：三个假设H1、H2和H3在先验上是等可能的，即：

我们在选择门1后收到的数据是Y = 3或Y = 2（分别表示打开门3或门2）。我们假设这两种可能的结果具有以下概率。如果奖品在门1后面，那么主持人在Y = 2和Y = 3之间随机选择。否则，主持人的选择是强制的，概率分别为0和1。

现在，利用贝叶斯定理，我们评估假设的后验概率：

分母P(Y = 3)是P(Y = 3) = 1/6 + 1/3 = 1/2。因此，

因此，参赛者应该换到门2，以获得获得奖品的最大机会。请参阅表2.2以查看一个实际例子。

许多人对这个结果感到惊讶。为了使其更直观，一种方法是进行一次思想实验，其中游戏使用一百万扇门进行。现在的规则是参赛者选择一扇门，然后游戏主持人以不透露奖品的方式打开999,998扇门，留下参赛者选择的门和另一扇门闭着。参赛者现在可以坚持或者换门。想象一下，参赛者面对着一百万扇门，其中门1和门234,598没有被打开，门1是参赛者最初的猜测。你认为奖品在哪扇门后面？

2.3.3 逆问题

概率论涉及根据对世界状态h的知识（或假设）来预测结果y的分布。相比之下，逆概率则涉及从观察结果中推断世界状态。我们可以将这视为反转h → y的映射。

例如，考虑尝试从二维图像y中推断三维形状h，这是视觉场景理解中的经典问题。不幸的是，这是一个基本上“有问题”的问题，如图2.8所示，因为存在多个可能的隐藏h，与观察到的y一致（参见例如[Piz01]）。同样，我们可以将自然语言理解视为一个“有问题”的问题，在这个问题中，听众必须从说话者说出的（通常模糊不清的）单词中推断出意图h（参见例如[Sab21]）。

[Piz01]：Z Pizlo. “Perception viewed as an inverse problem”. en. In: Vision Res. 41.24 (2001),pp. 3145–3161.

[Sab21]:W. Saba. Natural (2021).“ Machine Language Learning Won’t Solve Understanding”. In:(2021).

为了解决这种逆问题，我们可以使用贝叶斯定理来计算后验概率p(h|y)，它给出了可能的世界状态的分布。这需要指定前向模型p(y|h)，以及先验p(h)，它可以用来排除（或降低权重）不太可能的世界状态。我们在本书的后续部分中会更详细地讨论这个主题，[Mur23]。

[Mur23]:K. P. Murphy. Probabilistic Machine Learn-ing: Advanced Topics. MIT Press, 2023.

2.4 伯努利分布和二项分布

也许最简单的概率分布是伯努利分布，它可以用来建模二元事件，下面我们来讨论它：

2.4.1 定义

考虑抛一枚硬币，其中它落地为正面的概率由0 ≤ θ ≤ 1给出。设Y = 1表示这一事件，设Y = 0表示硬币落地为反面的事件。因此，我们假设p(Y = 1) = θ和p(Y = 0) = 1 − θ。这被称为伯努利分布，并可以写成如下形式：

其中符号∼表示“从中抽样”或“分布为”，而Ber代表伯努利。该分布的概率质量函数（pmf）定义如下：

（有关概率质量函数的详细信息，请参阅第2.2.1节。）我们可以将这个定义更简洁地写成如下形式：

伯努利分布是二项分布的特殊情况。为了解释他，假设我们观察到一组N次伯努利试验，表示为 $y_n \sim Ber(\cdot | \theta)$ ，其中n = 1:N。具体来说，想象一下N次抛硬币。让我们将s定义为总正面次数，即 $s=\sum_{n=1}^N I(y_n=1)$ 。s的分布由二项分布给出：

其中

表示:从N个项目中选择k个项目的方法数量（这被称为二项式系数，发音为“N choose k”）。如果N = 1，则二项分布将简化为伯努利分布。

2.4.2 Sigmoid（逻辑）函数

当我们想要预测输入x ∈ X 的二元变量 y ∈ {0, 1} 时，我们需要使用形式为下面的，条件概率分布：

其中 f(x;θ) 是个函数，用于预测输出分布的均值参数。我们将在第二部分至第四部(现在是第一部分)分考虑许多不同类型的函数 f。

为了避免要求 0 ≤ f(x;θ) ≤ 1，我们可以让 f 成为一个无约束函数，并使用以下模型：

这里σ()是sigmoid或逻辑函数，定义如下：

其中a = f(x;θ)。术语“sigmoid”表示S形状：见图2.10a进行绘制。

我们看到它将整个实数映射到[0, 1]，这对于将输出解释为概率（因此是伯努利参数θ的有效值）是必要的。sigmoid函数可以被认为是阶跃函数的“软”版本，它的定义如下：

如图2.10b所示。

将sigmoid函数的定义代入方程（2.78），我们得到：

a等于对数几率。

译者解释：

对数几率是指一个事件发生的概率与该事件不发生的概率之比的自然对数

其中 p = p(y = 1|x; θ)。

逻辑函数或sigmoid函数将对数几率 a 映射到概率 p：

这个函数的反函数被称为logit函数，并将概率 p 映射到对数几率 a：

有关这些函数的一些有用属性，请参见表 2.3。

2.4.3 二元逻辑回归

在本节中，我们使用条件伯努利模型，其中我们使用形式为 $f(x;\theta)=w^Tx+b$ 的线性预测器。因此，模型具有以下形式:

即：

这就是逻辑回归。

例如，考虑鸢尾花数据集的一维、两类版本，其中正类是“Virginica”，负类是“非Virginica”，我们使用的特征 x 是花瓣宽度。我们对此拟合一个逻辑回归模型，并在图2.11中展示结果。决策边界 $p(y=1|x=x^*,\theta) = 0.5$ 对应于当时的值 x∗。我们可以看到，在这个例子中，x∗ ≈ 1.7。当 x 远离这个边界时，分类器对于类别标签的预测变得更加自信。

从这个例子中可以清楚地看出，为二元分类问题使用线性回归是不合适的。在这样的模型中，随着我们向右移动足够远，概率会增加超过1，并且随着我们向左移动足够远，概率会降低到0以下。有关逻辑回归的更多详细信息，请参阅第10章。

2.5 分类分布和多项分布

为了表示对有限标签集合 y ∈ {1, . . . , C} 的分布，我们可以使用分类分布，它将伯努利分布推广到 C > 2 个值。

2.5.1 定义

分类分布是一种离散概率分布，每个类别有一个参数：

换句话说， $p(y=c|\theta) = \theta_c$ 。注意参数受到约束，使得 $0\leq \theta_c \leq 1$ 且 $\sum_{c=1}^C \theta_c = 1$ 因此只有 C − 1 个独立参数。

我们可以通过将离散变量 y 转换为一个具有 C 个元素的 one-hot 向量来表示，其中除了与类别标签对应的条目之外，所有条目都为 0。

（“one-hot”一词源自电气工程，其中二进制向量被编码为一组导线上的电流，这些导线可以是active（“热”的）或非 active（“冷”的））。

例如，如果 C = 3，我们将类别 1、2 和 3 编码为 (1, 0, 0)、(0, 1, 0) 和 (0, 0, 1)。更一般地，我们可以使用单位向量来编码类别，其中 $e_c$ 除了维度 c 外全为 0。（这也被称为伪编码。）使用 one-hot 编码，我们可以将分类分布写成如下形式：

译者注： $y_c$ 表示one-hot编码中的第c项，也就是1.

分类分布是多项分布的特殊情况。为了解释这一点，假设我们观察到 N 次分类试验 $y_n \sim Cat(\cdot|\theta)$ ，其中 n = 1 : N。具体地，想象一下连续进行 N 次 C 面骰子的投掷。让我们定义 y 为一个向量，每个维度表示每个面出现的次数，即 $y_c = N_c = \sum_{n=1}^N I(y_n = c)$ 。现在 y 不再是 one-hot，而是“multi-hot”，因为对于所有 N 次试验中观察到的每个 c 的值，它都有一个非零条目。y 的分布由多项分布给出：

其中 θc 是面 c 出现的概率，而：

称为多项式系数，它表示将大小为 N 的集合分成大小为 N1 到 NC 的子集的数量。如果 N = 1，多项分布就变成了分类分布。

译者补充：

多项分布的概率质量函数（PMF）给出了在N次试验中，各个结果分别发生 $x_1,x_2,x_3,\cdots,x_n$ 次（其中 $\sum_{i=1}^N x_i = N$ ）的概率：

$P(X_1=x_1,X_2=x_2,...,X_n =x_n) = \frac{N!}{x_1!x_2!\cdots x_n!} p_1^{x_1}p_2^{x_2}...p_n^{x_n}$

2.5.2 softmax函数

在某些条件下，我们可以定义：

还可以写作：

他们需要满足： $0 \leq f_c(x; \theta) \leq 1 \text{ and } \sum_{c=1}^{C} f_c(x; \theta) = 1.$

为了避免要求 f 直接预测一个概率向量，通常将 f 的输出传递给 softmax 函数 [Bri90]，该函数也称为多项逻辑回归。其定义如下：

[Bri90]:J. Bridle. “ Probabilistic Interpretation of Feedforward Classification Network Outputs, with Relationships to Statistical Pattern Recognition”. In: Neurocomputing: Algo- rithms, Architectures and Applications. Ed. by F. F. Soulie and J. Herault. Springer Ver- lag, 1990, pp. 227–236.

上面的式子，将 $R^c$ 映射到 $[0,1]^c$ ,并且满足 $0 \leq f_c(x; \theta) \leq 1 \text{ and } \sum_{c=1}^{C} f_c(x; \theta) = 1.$ softmax的输入 $a=f(x;\theta)$ ，称为“逻辑值”(或者对数几率)，是对对数几率的广义表达。

Softmax 函数之所以得名，是因为它的作用有点像 argmax 函数。为了理解这一点，我们可以将每个 $a_c$ 除以一个称为温度（temperature）的常数 T 。然后当 $T \rightarrow 0$ 时，我们可以发现:

换句话说，在低温下，分布将大部分的概率质量集中在最可能的状态（这被称为 ‘胜者通吃’），而在高温下，它则将概率质量均匀地分布。参见图 2.12 以获取示意图。

译者注：

当 $T\rightarrow 0$ 时， $e^{\frac{a_c}{T}}\rightarrow \infty$ 。然而正确的思考方式应该是：T越小，T的倒数越大，因此 $a_c$ 越大的项概率将会变得更大，而其他项，相应的就会有更小的概率。如上图。

2.5.3 多类别逻辑回归

如果我们使用如下形式的线性预测函数 $f(x; \theta) = \mathbf{W}x + \mathbf{b}$ ，其中 $\mathbf{W}$ 是一个 $C \times D$ 的矩阵， $\mathbf{b}$ 是一个 C 维的偏置向量，那么最终的模型变为：

设 $\mathbf{a} = \mathbf{W}x + \mathbf{b}$ 为 C 维的 logits 向量。则可以将上式重写为：

这被称为多项逻辑回归。

如果我们只有两个类别，这会简化为二分类逻辑回归。具体来说，注意到：

因此我们可以训练模型预测 $a = a_1 - a_0$ 。这可以通过一个单独的权重向量 $\mathbf{w}$ 完成；如果我们使用多类别的公式，我们将有两个权重向量 $\mathbf{w}_0$ 和 $\mathbf{w}_1$ 。这样的模型是参数冗余的，这可能会影响模型的可解释性，但预测结果将是相同的。

我们将在第 10.3 节中更详细地讨论这一点。目前，我们先给出一个例子。图 2.13 展示了当我们将该模型拟合到 3 类鸢尾花数据集时的情况，使用的只是 2 个特征。我们看到，每个类别之间的决策边界是线性的。我们可以通过转换特征（例如使用多项式）来创建非线性边界，这将在第 10.3.1 节中讨论。

2.5.4 log-sum-exp 技巧

在本节中，我们讨论在使用 softmax 分布时需要注意的一个重要实用细节。假设我们希望计算归一化后的概率 $p_c = p(y = c | x)$ ，其定义如下：

其中 $\mathbf{a} = f(x; \theta)$ 是 logits。计算分区函数 Z 时，我们可能会遇到数值问题。例如，假设我们有 3 个类别，其 logits 为 a = (0, 1, 0) ，那么我们得到 Z = e^0 + e^1 + e^0 = 4.71 。但是，假设 a = (1000, 1001, 1000) ，我们得到 $Z = \infty$ ，因为在计算机上，即使使用 64 位精度， $\text{np.exp}(1000)$ 也会导致无穷大。同样地，假设 a = (-1000, -999, -1000)，我们会得到 Z = 0 ，因为 $\text{np.exp}(-1000) = 0$ 。为避免数值问题，我们可以使用以下等式：

其中的 m 可以是任意值。常见的做法是选择 $m = \max_c a_c$ ，这样可以确保指数运算中最大值为零，从而不会溢出，且即使出现下溢，结果也是合理的。这种方法称为 log-sum-exp 技巧。我们在实现 lse 函数时使用此技巧：

我们可以利用这个函数从 logits 中计算概率：

然后，我们可以将此结果传递给交叉熵损失函数，该损失函数在公式 (5.41) 中定义。然而，为了节省计算开销并提高数值稳定性，通常会修改交叉熵损失，使其直接使用 $\mathbf{a}$ 作为输入，而不是概率向量p。例如，对于二分类情况，一个样本的交叉熵损失为：

其中：

2.6 单变量高斯（正态）分布

最广泛使用的实值随机变量 $y \in \mathbb{R}$ 的分布是高斯分布，也称为正态分布（详见 2.6.4 节讨论这些名称的来源）。

2.6.1 累积分布函数

我们定义连续随机变量 Y 的累积分布函数（cdf）如下：

译者注：

等号上面的三角符号，表示“定义为”

（注意，我们用大写字母 P 表示 cdf。）利用这个定义，我们可以计算在任意区间内的概率如下：

累积分布函数是单调非减函数。高斯分布的 cdf 定义为：

请参见图 2.2a 了解详细内容。需要注意的是，高斯分布的 cdf 通常使用以下形式实现：
$\Phi(y; \mu, \sigma^2) = \frac{1}{2} \left[1 + \text{erf}\left(\frac{z}{\sqrt{2}}\right)\right]$ ，其中 $z = \frac{y - \mu}{\sigma}$ ，而 $\text{erf}(u)$ 是误差函数（error function），定义如下：

译者注：

z表示的是标准化，即，y与均值 $\mu$ 相差多少个标准差。

参数 $\mu$ 表示分布的均值；对于高斯分布，这也是众数。参数 $\sigma^2$ 表示方差。（有时我们讨论高斯分布的精度，即方差的倒数，用 $\lambda = 1 / \sigma^2$ 表示。）当 $\mu = 0$ 且 $\sigma = 1$ 时，高斯分布称为标准正态分布。

如果 P 是 Y 的 cdf，那么 $P^{-1}(q)$ 是使得 $p(Y \leq y_q) = q$ 的 $y_q$ ，这称为分布的第 q 分位数。值 $P^{-1}(0.5)$ 是分布的中位数，其中一半的概率质量在左侧，另一半在右侧。值 $P^{-1}(0.25)$ 和 $P^{-1}(0.75)$ 分别是下四分位数和上四分位数。

例如，令 $\Phi$ 为高斯分布 $\mathcal{N}(0, 1)$ 的 cdf， $\Phi^{-1}$ 为其反函数（也称为 probit 函数）。在图 2.2b 中， $\Phi^{-1}(\alpha/2)$ 左侧的点包含 α/2 的概率质量。同理，对称地， $\Phi^{-1}(1 - \alpha/2)$ 右侧的点也包含 α/2 的质量。中心区间 $(\Phi^{-1}(\alpha/2), \Phi^{-1}(1 - \alpha/2))$ 包含 $1 - \alpha$ 的质量。当我们设置 $\alpha = 0.05$ 时，中心 95% 的区间由以下范围覆盖：

如果分布为 $\mathcal{N}(\mu, \sigma^2)$ ，那么 95% 的区间为 $(\mu - 1.96\sigma, \mu + 1.96\sigma)$ 。这个区间通常近似表示为 $\mu \pm 2\sigma$ 。

2.6.2 概率密度函数

我们将概率密度函数（pdf）定义为累积分布函数（cdf）的导数：

高斯分布的概率密度函数给出如下：

其中， $\sqrt{2\pi\sigma^2}$ 是归一化常数，用于确保密度的积分为 1（见练习 2.12）。参见图 2.2b 了解更多细节。

给定一个概率密度函数（pdf），我们可以计算连续随机变量在有限区间内的概率如下：

当区间的大小变得很小时，我们可以写成：

直观上，这表示随机变量 Y 落在 y 附近小区间的概率等于该区间宽度乘以 y 处的密度。上述结果的一个重要推论是，pdf 在某一点处的值可以大于 1。例如， $\mathcal{N}(0|0, 0.1) = 3.99$

我们可以使用 pdf 来计算分布的均值（或期望值）：

对于高斯分布，我们有一个熟悉的结果 $\mathbb{E}[\mathcal{N}(\cdot|\mu, \sigma^2)] = \mu$ 。（注意，对于某些分布，这个积分不是有限的，因此均值未定义。）

我们还可以使用 pdf 来计算分布的方差。方差表示分布的“扩散度”，通常用 $\sigma^2$ 表示。方差定义如下：

其中，我们可以得出有用的结果：

标准差定义为：

（标准差相比方差更具有可解释性，因为它与 Y 本身具有相同的单位。）对于高斯分布，我们有一个熟悉的结果：对于 $\mathcal{N}(\cdot|\mu, \sigma^2)$ 的标准差为 $\sigma$ 。

2.6.3 回归

到目前为止，我们一直在考虑无条件的高斯分布。在某些情况下，将高斯分布的参数设为某些输入变量的函数是有帮助的，即我们希望创建一个条件密度模型，形式如下：

其中， $f_\mu(x; \theta) \in \mathbb{R}$ 预测均值， $f_\sigma(x; \theta)^2 \in \mathbb{R}_+$ 预测方差。

通常假设方差是固定的，与输入无关。这被称为同方差回归（homoscedastic regression）。此外，还通常假设均值是输入的线性函数，所得模型称为线性回归：

其中 $\theta = (\mathbf{w}, b, \sigma^2)$ 。参见图 2.14(a) 了解 1 维情况下该模型的示意图，更多细节请见第 11.2 节。

然而，我们也可以让方差依赖于输入，这称为异方差回归（heteroskedastic regression）。在线性回归设置中，我们有：

其中 $\theta = (\mathbf{w}_\mu, \mathbf{w}_\sigma)$ 是两种回归权重，且

是 softplus 函数，它将 $\mathbb{R}$ 映射到 $\mathbb{R}_+$ ，以确保预测的标准差为非负值。参见图 2.14(b) 了解 1 维情况下该模型的示意图。

请注意，图 2.14 绘制的是 95% 预测区间 $[\mu(x) - 2\sigma(x), \mu(x) + 2\sigma(x)]$ 这表示在给定 x 下预测观察值 y 的不确定性，捕捉了蓝点中的变异性。相比之下，底层的（无噪声的）函数由 $\sqrt{\mathbb{V}[f_\mu(x; \theta)]}$ 表示，它不涉及 $\sigma$ 项；现在的不确定性是关于参数 $\theta$ 的，而不是关于输出 y 的。参见第 11.7 节了解如何建模参数不确定性。

2.6.4 为什么高斯分布被广泛使用？

高斯分布是统计学和机器学习中使用最广泛的分布。其原因有很多。首先，它有两个易于解释的参数，可以捕捉分布的最基本特性，即均值和方差。其次，中心极限定理（见第 2.8.6 节）告诉我们，独立随机变量之和近似服从高斯分布，这使得高斯分布成为建模残差或“噪声”的良好选择。第三，高斯分布对分布形状的假设最少（具有最大熵），在给定特定均值和方差的条件下，这使得它在许多情况下成为默认的良好选择。最后，高斯分布具有简单的数学形式，易于实现，但通常非常有效，我们将在第 3.2 节中看到这一点。

从历史角度来看，值得注意的是，“高斯分布”这个术语有点误导性，因为正如 Jaynes [Jay03, p241] 指出：“这种分布的基本性质及其主要特性在高斯出生六岁时就已被拉普拉斯注意到；而在拉普拉斯出生之前，de Moivre 就已经发现了这种分布。”然而，高斯推广了这种分布的使用，现在“高斯”一词在科学和工程领域广泛使用。

“正态分布”这个名称似乎是与线性回归中的“正规方程”有关（见第 11.2.2.2 节）。然而，我们倾向于避免使用“正态”一词，因为它暗示其他分布是“不正常”的，而正如 Jaynes [Jay03] 指出，恰恰是高斯分布在某种意义上是“异常”的，因为它具有许多不常见的特殊性质，这些性质在一般分布中并不典型。

[Jay03]:E. T. Jaynes. Probability theory: the logic of science. Cambridge university press, 2003.

2.6.5 将狄拉克δ函数作为极限情况

当高斯分布的方差趋近于 0 时，分布会逐渐接近于一个无限窄但无限高的“尖峰”，且集中在均值处。我们可以将其写为：

其中 $\delta$ 是狄拉克δ函数，定义如下：

并且满足：

一个略微不同的变体定义为：

注意我们有：

狄拉克δ函数分布满足以下筛选性质（sifting property），我们将在后续使用：

2.7 其他常见的单变量分布

在本节中，我们简要介绍一些我们将在本书中使用的其他单变量分布。

2.7.1 学生 t 分布

译者注：

学生t分布，是因为这一分布最初由一位化名为“Student”的统计学家提出，也叫做司徒顿t分布。

这一分布student仅仅是其笔名，原名叫：William Sealy Gosset

高斯分布对异常值非常敏感。一个对高斯分布的稳健替代是学生 t 分布（Student t-distribution），简称学生分布。它的概率密度函数（pdf）如下：

其中， $\mu$ 是均值， $\sigma > 0$ 是尺度参数（而不是标准差）， $\nu > 0$ 被称为自由度（degrees of freedom）（虽然一个更好的术语是“正态度量 degree of normality”），因为 $\nu$ 的值越大，该分布就越接近高斯分布。

我们看到，概率密度的衰减是中心距平方的多项式函数，而不是指数函数，因此相比高斯分布，t 分布的尾部有更多的概率质量，如图 2.15 所示。我们说学生 t 分布具有重尾（heavy tails），这使得它对异常值具有稳健性。

为了说明学生 t 分布的稳健性，请参考图 2.16。左图显示了在没有异常值的数据下，拟合的高斯分布和学生分布。右图中，我们加入了一些异常值，可以看到高斯分布受到很大影响，而学生分布几乎没有变化。我们将在第 11.6.2 节讨论如何使用学生分布进行稳健的线性回归。

作为后续参考，我们注意到学生分布具有以下性质：

均值仅在 $\nu > 1$ 时定义。方差仅在 $\nu > 2$ 时定义。当 $\nu \gg 5$ 时，学生分布迅速接近高斯分布，并失去其稳健性。通常使用 $\nu = 4$ ，在多种问题中表现良好 [LLT89]。

[LLT89]:K. Lange, R. Little, and J. Taylor. “Robust Statistical Modeling Using the T Disribution”. In: JASA 84.408 (1989), pp. 881–896.

2.7.2 柯西分布

当 $\nu = 1$ 时，学生 t 分布称为柯西分布（Cauchy distribution）或洛伦兹分布（Lorentz distribution）。它的概率密度函数（pdf）定义如下：

与高斯分布相比，这种分布具有非常重的尾部。例如，标准正态分布的 95% 的取值范围在 -1.96 到 1.96 之间，但对于标准柯西分布，其范围在 -12.7 到 12.7 之间。实际上，它的尾部非常重，以至于用于定义均值的积分无法收敛。

半柯西分布是柯西分布（以 $\mu = 0$ 为中心）在零点上“折叠”的版本，因此所有概率密度都在正实数范围内。其形式为：

这在贝叶斯建模中很有用，当我们需要一个具有重尾但在原点处具有有限密度的正实数分布时。

2.7.3 拉普拉斯分布

另一种具有重尾的分布是拉普拉斯分布（Laplace distribution），也称为双边指数分布（double-sided exponential distribution）。它的概率密度函数（pdf）如下：

参见图 2.15 查看其图示。这里 $\mu$ 是位置参数， $b > 0$ 是尺度参数。该分布具有以下性质：

在第 11.6.1 节中，我们讨论了如何使用拉普拉斯分布进行稳健线性回归；在第 11.4 节中，我们讨论了如何使用拉普拉斯分布进行稀疏线性回归。

2.7.4 Beta 分布

Beta 分布在区间 [0, 1] 上有定义，其定义如下：

其中 B(a, b) 是 Beta 函数，定义如下：

其中 $\Gamma(a)$ 是 Gamma 函数，定义如下：

参见图 2.17a 查看 Beta 分布的图示。

我们要求 a > 0, b > 0 以确保分布是可积的（即确保 B(a, b) 存在）。当 a = b = 1 时，我们得到均匀分布。如果 a 和 b 都小于 1，我们得到一个在 0 和 1 处“尖峰”的双峰分布。如果 a 和 b 都大于 1，则该分布为单峰分布。

作为后续参考，我们注意到该分布具有以下性质（练习 2.8）：

2.7.5 Gamma 分布

Gamma 分布是一种灵活的分布，用于正实值随机变量 x > 0。它由两个参数定义，分别是形状参数 a > 0和速率参数 b > 0：

有时，分布也可以用形状参数 a和尺度参数 s = 1/b 来参数化：

参见图 2.17b 查看 Gamma 概率密度函数的图示。作为参考，我们注意到该分布具有以下性质：

有几个分布是 Gamma 分布的特例，下面我们将讨论这些分布。

指数分布。定义如下：

该分布描述了泊松过程（Poisson process）中事件发生时间之间的间隔，即事件以恒定的平均速率 $\lambda$ 连续且独立地发生的过程。

卡方分布。定义如下：

其中 $\nu$ 称为自由度。这是高斯随机变量平方和的分布。更精确地说，如果 $Z_i \sim \mathcal{N}(0, 1)$ ，且 $S = \sum_{i=1}^\nu Z_i^2$ ，那么 $S \sim \chi^2_\nu$ 。

逆 Gamma 分布。定义如下：

该分布具有以下性质：

均值仅在 a > 1时存在。方差仅在 a > 2 时存在。注意：如果 $X \sim \text{Ga}(\text{shape} = a, \text{rate} = b)$ ，那么 $1/X \sim \text{IG}(\text{shape} = a, \text{scale} = b)$ 。注意 b 在这个情况下起到了两个不同的作用。

2.7.6 经验分布

假设我们有一组 N个样本 $\mathcal{D} = \{x^{(1)}, \dots, x^{(N)}\}$ ，它们来自分布 p(X)，其中 $X \in \mathbb{R}$ 。我们可以使用一组狄拉克δ函数（见第 2.6.5 节）或“尖峰”函数，中心位于这些样本上，来近似概率密度函数（pdf）：

这被称为数据集 $\mathcal{D}$ 的经验分布。图 2.18(a) 展示了一个 N = 5 的例子。

对应的累积分布函数（cdf）为：

其中， $u_y(x)$ 是一个在 y 处定义的阶跃函数，定义为：

这可以视为“阶梯状”函数，如图 2.18(b) 所示，其中在每个样本处都有高度为1/N 的跳跃。

2.8 随机变量的变换

假设 $x \sim p(x)$ 是某个随机变量，且 $y = f(x)$ 是它的一个确定性变换。在本节中，我们讨论如何计算 p(y)。

2.8.1 离散情况

如果 X 是离散随机变量，我们可以通过对所有满足 f(x) = y 的 x 进行概率质量的求和，来推导 Y 的概率质量函数（pmf）：

例如，如果 X是偶数，f(X) = 1 否则，f(X) = 0 ，且 $p_x(X)$ 在集合 $\{1,\dots,10\}$ 上是均匀的，那么 $p_y(1) = \sum_{x \in \{2,4,6,8,10\}} p_x(x) = 0.5$ ，因此 $p_y(0) = 0.5$ 。请注意，在这个例子中，f 是一个多对一的函数。

2.8.2 连续情况

如果 X 是连续的，我们不能使用公式 (2.150)，因为 $p_x(x)$ 是一个密度函数而不是概率质量函数，我们不能对密度函数进行求和。相反，我们使用累积分布函数（cdf），如下：

如果 f 是可逆的，我们可以通过对 cdf 进行微分来推导 y 的概率密度函数（pdf），如下所示。如果 f 不是可逆的，我们可以使用数值积分或蒙特卡罗近似。

2.8.3 可逆变换（双射）

在本节中，我们考虑单调且因此是可逆的函数。（注意，一个函数是可逆的当且仅当它是双射。）有了这个假设， y 的概率密度函数有一个简单的公式，如下所示。（这可以推广到可逆但非单调的函数，但我们忽略这种情况。

2.8.3.1 变量变换：标量情况

我们从一个例子开始。假设 $x \sim Unif(0, 1)$ ，且 $y = f(x) = 2x + 1$ 。这个函数拉伸并移动了概率分布，如图 2.19(a) 所示。现在让我们缩放到某个点 x 和另一个无穷接近的点，记作 x + dx。我们看到这个区间被映射到 (y, y + dy)。在这些区间内的概率质量必须相同，因此 p(x)dx = p(y)dy ，所以 $p(y) = p(x)dx/dy.$ 但是，由于无论 dx/dy 是正是负（在概率保留的意义上）都无关紧要，所以我们得到

现在考虑任意 $p_x(x)$ 和任意单调函数 $f: \mathbb{R} \to \mathbb{R}$ 。设 $g = f^{-1}$ ，所以 $y = f(x)$ 且 $x = g(y)$ 。如果我们假设 $f: \mathbb{R} \to \mathbb{R}$ 是单调递增的，我们得到

通过求导数我们得到

我们可以为单调递减的情况推导一个类似的表达式（但符号相反）。为处理一般情况，我们取绝对值得到

这被称为变量变换公式。

2.8.3.2 变量变换：多变量情况

我们可以将前述结果推广到多变量分布。设 f 为一个可逆函数，将 $\mathbb{R}^n$ 映射到 $\mathbb{R}^n$ ，其逆为 g。假设我们想计算 y = f(x) 的概率密度函数（pdf）。类似于标量情况，我们有：

其中 $J_g = \frac{dg(y)}{dy}$ 是 g 的雅可比矩阵（Jacobian），而 $\left|\det(J_g(y))\right|$ 是在 y 处的雅可比矩阵的行列式的绝对值。（在第 7.8.5 节中我们将讨论雅可比矩阵）。在练习 3.6 中，你将使用此公式推导多元高斯分布的归一化常数。

图 2.20 在二维情况下展示了这一结果，其中f(x) = Ax + b，其中 $A = \begin{pmatrix} a & c \\ b & d \end{pmatrix}$ 。

我们看到单位正方形的面积因子变化为 $\det(A) = ad - bc$ ，这也是平行四边形的面积。

作为另一个例子，考虑将密度从笛卡尔坐标 $x = (x_1, x_2)$ 变换为极坐标 $y = (r \cos\theta, r \sin\theta)$ ：

因此，

从几何角度来看，图 2.21 中阴影区域的面积由下式给出：

在极限情况下，这等于在区域中心处的密度乘以该区域的大小，即 $r \, dr \, d\theta$ 。

因此，

2.8.4 线性变换的矩

假设 f 是一个仿射函数，所以 y = Ax + b。在这种情况下，我们可以很容易地推导出y的均值和协方差。首先，对于均值，我们有：

其中 $\mu = \mathbb{E}[x]$ 。如果 f 是一个标量值函数，即 $f(x) = a^\top x + b$ ，对应的结果是：

对于协方差，我们有：

其中 $\Sigma = \text{Cov}[x]$ 。我们将证明这一点作为练习。

作为一个特例，如果 $y = a^\top x + b$ ，我们得到：

例如，为了计算两个标量随机变量之和的方差，我们可以设置 a = [1, 1] ，得到：

然而，请注意，尽管有些分布（如高斯分布）可以完全通过其均值和协方差来表征，但通常情况下，我们必须使用上述技术来推导 y 的完整分布。

2.8.5 卷积定理

设 $y = x_1 + x_2$ ，其中 $x_1$ 和 $x_2$ 是独立的随机变量。如果这些是离散随机变量，我们可以通过以下方式计算和的概率质量函数（pmf）：

对于 $j = \dots, -2, -1, 0, 1, 2, \dots$ 。

如果 $x_1$ 和 $x_2$ 有概率密度函数 $p_1(x_1)$ 和 $p_2(x_2)$ ，那么 y的分布是什么？ y 的累积分布函数（cdf）由下式给出：

其中我们在 $x_1 + x_2 \leq y^*$ 定义的区域 R 上积分。因此 y 的概率密度函数为：

我们使用了积分号下微分的规则：

我们可以将公式 (2.170) 写成如下形式：

其中 $\otimes$ 表示卷积算子。对于有限长度的向量，积分变成了求和，卷积可以被看作是“翻转并拖动”操作，如表 2.4 所示。因此，公式 (2.170) 被称为卷积定理。

例如，假设我们投掷两个骰子，因此 $p_1$ 和 $p_2$ 都是离散均匀分布在 $\{1,2,\dots,6\}$ 上。设 $y = x_1 + x_2$ 是骰子点数的和。我们有：

继续以此方式，我们得到 $p(y = 4) = 3/36$ ， $p(y = 5) = 4/36$ $p(y = 6) = 5/36$ ， $p(y = 7) = 6/36$ ， $p(y = 8) = 5/36$ ， $p(y = 9) = 4/36$ ， $p(y = 10) = 3/36$ ， $p(y = 11) = 2/36$ 和 $p(y = 12) = 1/36$ 。参见图 2.22 了解分布图。我们看到这个分布看起来像高斯分布；我们将在第 2.8.6 节中解释其中的原因。

我们还可以计算两个连续随机变量之和的概率密度函数。例如，在高斯分布的情况下，设 $x_1 \sim \mathcal{N}(\mu_1, \sigma_1^2)$ 且 $x_2 \sim \mathcal{N}(\mu_2, \sigma_2^2)$ ，那么我们可以证明（练习 2.4）如果 $y = x_1 + x_2$ 则：

因此，两个高斯分布的卷积仍然是一个高斯分布。

2.8.6 中心极限定理

现在考虑 N 个随机变量，它们的概率密度函数（pdf）为 $p_n(x)$ （不一定是高斯分布），每个变量的均值为 $\mu$ ，方差为 $\sigma^2$ 。我们假设每个变量是独立同分布（independent and identically distributed，缩写为 iid）的，这意味着 $X_n \sim p(X)$ 是来自同一分布的独立样本。设 $S_N = \sum_{n=1}^N X_n$ 是这些随机变量的和。可以证明，随着 N 的增加，这个和的分布趋近于：

因此，量

的分布趋近于标准正态分布，其中 $\bar{X} = S_N / N$ 是样本均值。这就是所谓的中心极限定理。参见如 [Jay03, p222] 或 [Ric95, p169] 等资料中的证明。

[Jay03]:E. T. Jaynes. Probability theory: the logic of science. Cambridge university press, 2003.

[Ric95]:J. Rice. Mathematical statistics and data analysis. 2nd edition. Duxbury, 1995.

在图 2.23 中，我们举了一个例子，其中我们计算了从 Beta 分布中抽取的随机变量的样本均值。我们看到，这个均值的采样分布迅速趋近于高斯分布。

2.8.7 蒙特卡罗近似

假设 x 是一个随机变量，y = f(x) 是 x 的某个函数。通常情况下，很难通过解析方法计算出分布 p(y)。一种简单但强大的替代方法是从 x 的分布中抽取大量样本，然后使用这些样本（而不是分布本身）来近似 p(y) 。

例如，假设 $x \sim \text{Unif}(-1, 1)$ 且 $y = f(x) = x^2$ 。我们可以通过从 p(x) 中抽取许多样本（使用均匀随机数生成器），将它们平方，并计算所得的经验分布来近似 p(y)，该分布由下式给出：

译者注：

根据大数定律

这只是一个等权重的“尖峰”之和，每个尖峰以一个样本为中心（参见第 2.7.6 节）。通过使用足够多的样本，我们可以相当好地近似 p(y)。参见图 2.24 查看图示。

这种方法称为蒙特卡罗近似。术语“蒙特卡罗”来源于摩纳哥一家著名赌场的名字。蒙特卡罗技术最早在统计物理学领域开发，特别是在原子弹开发期间，但现在也广泛用于统计学和机器学习中。关于更多详细信息，可以参考这本书的续集 [Mur23]，以及有关该主题的专业书籍，如 [Liu01; RC04; KTB11; BZ20]。

[Liu01]:J. Liu. Monte Carlo Strategies in Scientific Computation. Springer, 2001.

[RC04]:C. Robert and G. Casella. Monte Carlo Statisical Methods. 2nd edition. Springer, 2004.

[KTB11]:D. P. Kroese, T. Taimre, and Z. I. Botev. Handbook of Monte Carlo Methods. en. 1 edi- tion. Wiley, 2011.

[BZ20]:A. Barbu and S.-C. Zhu. Monte Carlo Methods. en. Springer, 2020.

习题：略

本章完