【机器学习的数学基础】(十二)概率与分布(Probability and Distributions)(中)

6 概率与分布(Probability and Distributions)(中)

6.4 概括性统计和独立性

我们经常对概括随机变量集和比较随机变量对感兴趣。随机变量的统计量是由随机变量确定的函数。分布的概括性统计量为随机变量的行为提供了一个有用的视角,顾名思义,它用数字概括和描述分布。我们将描述均值和方差这两个众所周知的概括性统计量。然后讨论比较随机变量对的两种方法:一是如何说明两个随机变量是独立的;第二,如何计算它们之间的内积

6.4.1 均值和协方差

平均值和(协)方差通常是描述概率分布的有用性质(期望值和扩散情况)。在第6.6节中,我们将看到有一个有用的分布族(称为指数族),其中随机变量的统计量捕获了所有可能信息。

期望值的概念是机器学习的中心,概率本身的一些基本概念可以从期望值派生(Whittle, 2000)。

定义 6.3期望值

关于单变量连续随机变量 X ∼ p ( X ) X \sim p(X) Xp(X)的函数 g : R → R g: \mathbb{R}→\mathbb{R} g:RR的期望值(expected value )为:
E X [ g ( x ) ] = ∫ X g ( x ) p ( x ) d x \mathbb{E}_{X}[g(x)]=\int_{\mathcal{X}} g(x) p(x) \mathrm{d} x EX[g(x)]=Xg(x)p(x)dx

相应地,关于离散随机变量 X ∼ p ( X ) X∼p(X) Xp(X)的函数 g g g的期望值为:
E X [ g ( x ) ] = ∑ x ∈ X g ( x ) p ( x ) \mathbb{E}_{X}[g(x)]=\sum_{x \in \mathcal{X}} g(x) p(x) EX[g(x)]=xXg(x)p(x)

其中 X \mathcal{X} X是随机变量 X X X的可能结果的集合(目标空间)。

在本节中,我们考虑离散随机变量的数值结果。通过观察函数 g g g以实数作为输入可以看出这一点。

备注
我们考虑用多元随机变量 X X X表示一元随机变量组成的有限维向量 [ X 1 , … , X D ] ⊤ [X_1,…, X_D]^{\top} [X1,XD]。对于多元随机变量,我们逐元素定义期望值:
E X [ g ( x ) ] = [ E X 1 [ g ( x 1 ) ] ⋮ E X D [ g ( x D ) ] ] ∈ R D \mathbb{E}_{X}[g(\boldsymbol{x})]=\left[\begin{array}{c}\mathbb{E}_{X_{1}}\left[g\left(x_{1}\right)\right] \\\vdots \\\mathbb{E}_{X_{D}}\left[g\left(x_{D}\right)\right]\end{array}\right] \in \mathbb{R}^{D} EX[g(x)]=EX1[g(x1)]EXD[g(xD)]RD

其中 E X d \mathbb{E}_{X_d} EXd的下标表示我们取向量 x \boldsymbol{x} x的第 d d d个元素的期望值。

定义6.3定义了符号 E X \mathbb{E}_X EX的意义,作为一个算子,它表示我们应该取关于概率密度的积分(对于连续分布)或关于所有状态的和(对于离散分布)。均值的定义(定义6.4),是期望值的一种特殊情况,通过取 g g g为恒等函数得到。

定义 6.4 均值

状态 x ∈ R D \boldsymbol{x}∈\mathbb{R}^D xRD的随机变量 X X X的均值(mean)为平均值(average),定义为
E X [ x ] = [ E X 1 [ x 1 ] ⋮ E X D [ x D ] ] ∈ R D \mathbb{E}_{X}[\boldsymbol{x}]=\left[\begin{array}{c}\mathbb{E}_{X_{1}}\left[x_{1}\right] \\\vdots \\\mathbb{E}_{X_{D}}\left[x_{D}\right]\end{array}\right] \in \mathbb{R}^{D} EX[x]=EX1[x1]EXD[xD]RD

对于 d = 1 , … , D d = 1,…, D d=1D

E X d [ x d ] : = { ∫ X x d p ( x d ) d x d  如果  X  为连续型随机变量  ∑ x i ∈ X x i p ( x d = x i )  如果  X  为离散型随机变量 ( 6.32 ) \mathbb{E}_{X_{d}}\left[x_{d}\right]:=\left\{\begin{array}{ll}\int_{\mathcal{X}} x_{d} p\left(x_{d}\right) \mathrm{d} x_{d} & \text { 如果 } X \text { 为连续型随机变量 } \\\sum_{x_{i} \in \mathcal{X}} x_{i} p\left(x_{d}=x_{i}\right) & \text { 如果 } X \text { 为离散型随机变量}\end{array}\right.\qquad (6.32) EXd[xd]:={Xxdp(xd)dxdxiXxip(xd=xi) 如果 X 为连续型随机变量  如果 X 为离散型随机变量(6.32)

其中下标 d d d表示 x \boldsymbol{x} x对应的维数。上式是对随机变量 X X X的目标空间状态 X \mathcal{X} X的积分以及求和。

在一个维度中,还有另外两个直观的“平均”概念,即中位数(median)和众数(mode)。如果我们对这些值进行排序,中位数就是“最中间”的值,即50%的值大于中位数,50%的值小于中位数。这一思想可以推广到连续值,考虑累计分布函数(定义6.2)为0.5的值。对于不对称或有长尾的分布,中位数提供了一个典型值的估计值,该值比平均值更接近人类的直觉。此外,中位数对异常值的鲁棒性比平均值强。中位数向更高维度的推广是非平凡的,因为目前没有方法可以在不止一个维度中“排序”(Hallin et al., 2010;Kong and Mizera, 2012)。

众数(mode)是最常出现的值。对于离散随机变量,众数定义为出现频率最高的 x x x的值。对于连续随机变量,众数定义为密度 p ( x ) p(\boldsymbol{x}) p(x)上的一个峰值。一个特定的密度 p ( x ) p(\boldsymbol{x}) p(x)可能有不止一个众数,而且在高维分布中可能有大量的众数。因此,找到一个分布的所有众数在计算上是具有挑战性的。
在这里插入图片描述
图 6.4 对二维数据集的平均值、众数和中值及其边缘密度的图示说明。

例 6.4

考虑图6.4所示的二维分布:
p ( x ) = 0.4 N ( x ∣ [ 10 2 ] , [ 1 0 0 1 ] ) + 0.6 N ( x ∣ [ 0 0 ] , [ 8.4 2.0 2.0 1.7 ] ) p(x)=0.4 \mathcal{N}\left(\boldsymbol{x} \mid\left[\begin{array}{c}10 \\2\end{array}\right],\left[\begin{array}{cc}1 & 0 \\0 & 1\end{array}\right]\right)+0.6 \mathcal{N}\left(\boldsymbol{x} \mid\left[\begin{array}{l}0 \\0\end{array}\right],\left[\begin{array}{ll}8.4 & 2.0 \\2.0 & 1.7\end{array}\right]\right) p(x)=0.4N(x[102],[1001])+0.6N(x[00],[8.42.02.01.7])

我们将在6.5节中定义高斯分布 N ( μ , σ 2 ) \mathcal{N}\left(\mu, \sigma^{2}\right) N(μ,σ2)。图中在每个维度上也显示了相应的边缘分布。可以观察到分布是双峰的(有两个众数),但其中一个边缘分布是单峰的(有一个众数)。单变量水平双峰分布说明了均值和中位数可以是不同的。你可能会将二维分布的中值定义为每个维度中值的行列连接处,但事实上我们无法定义二维点的顺序。当我们说“不能定义顺序”时,我们的意思是有不止一种方法来定义关系 < < <使得 [ 3 0 ] < [ 2 3 ] \left[\begin{array}{l}3 \\0\end{array}\right]<\left[\begin{array}{l}2 \\3\end{array}\right] [30]<[23]

备注
期望值(定义6.3)是一个线性算子。例如,给定一个实值函数 f ( x ) = a g ( x ) + b h ( x ) f(\boldsymbol{x})=a g(\boldsymbol{x})+b h(\boldsymbol{x}) f(x)=ag(x)+bh(x)其中 a , b ∈ R a, b \in \mathbb{R} a,bR
x ∈ R D \boldsymbol{x} \in \mathbb{R}^{D} xRD,我们可以得到:
E X [ f ( x ) ] = ∫ f ( x ) p ( x ) d x = ∫ [ a g ( x ) + b h ( x ) ] p ( x ) d x = a ∫ g ( x ) p ( x ) d x + b ∫ h ( x ) p ( x ) d x = a E X [ g ( x ) ] + b E X [ h ( x ) ] \begin{aligned}\mathbb{E}_{X}[f(\boldsymbol{x})] &=\int f(\boldsymbol{x}) p(\boldsymbol{x}) \mathrm{d} \boldsymbol{x} \\&=\int[a g(\boldsymbol{x})+b h(\boldsymbol{x})] p(\boldsymbol{x}) \mathrm{d} \boldsymbol{x} \\&=a \int g(\boldsymbol{x}) p(\boldsymbol{x}) \mathrm{d} x+b \int h(\boldsymbol{x}) p(\boldsymbol{x}) \mathrm{d} \boldsymbol{x} \\&=a \mathbb{E}_{X}[g(\boldsymbol{x})]+b \mathbb{E}_{X}[h(\boldsymbol{x})]\end{aligned} EX[f(x)]=f(x)p(x)dx=[ag(x)+bh(x)]p(x)dx=ag(x)p(x)dx+bh(x)p(x)dx=aEX[g(x)]+bEX[h(x)]

对于两个随机变量,我们可以描述它们之间的对应关系。协方差直观地表示随机变量之间的相关性。

定义 6.5协方差(一元)

两个单变量随机变量 X , Y ∈ R X, Y∈\mathbb{R} X,YR之间的协方差(covariance)由其偏离各自均值的期望积给出,即
Cov ⁡ X , Y [ x , y ] : = E X , Y [ ( x − E X [ x ] ) ( y − E Y [ y ] ) ] \operatorname{Cov}_{X, Y}[x, y]:=\mathbb{E}_{X, Y}\left[\left(x-\mathbb{E}_{X}[x]\right)\left(y-\mathbb{E}_{Y}[y]\right)\right] CovX,Y[x,y]:=EX,Y[(xEX[x])(yEY[y])]

术语:多元随机变量的协方差 Cov ⁡ [ x , y ] \operatorname{Cov}[x, y] Cov[x,y]有时被称为交叉协方差(cross-covariance),其中协方差指的是 Cov ⁡ [ x , x ] \operatorname{Cov}[x, x] Cov[x,x]

备注
当与期望或协方差相关的随机变量的参数明确时,下标通常被去掉(例如, E X [ x ] \mathbb{E}_X[x] EX[x]经常被写成 E [ x ] \mathbb{E}[x] E[x])。

利用期望的线性性,定义6.5中的表达式可以改写为乘积的期望值减去期望值的乘积,即
Cov ⁡ [ x , y ] = E [ x y ] − E [ x ] E [ y ] \operatorname{Cov}[x, y]=\mathbb{E}[x y]-\mathbb{E}[x] \mathbb{E}[y] Cov[x,y]=E[xy]E[x]E[y]

一个变量与自身的协方差 C o v [ x , x ] Cov[x, x] Cov[x,x]称为方差(variance),用 V X [ x ] \mathbb{V}_X[x] VX[x]表示。方差的平方根称为标准差(standard deviation),通常用 σ ( x ) σ(x) σ(x)表示。协方差的概念可以推广到多元随机变量。

定义 6.6 协方差(多元)

如果我们考虑两个多元随机变量 X X X Y Y Y,分别对应状态 x ∈ R D \boldsymbol{x} \in \mathbb{R}^{D} xRD y ∈ R E \boldsymbol{y} \in \mathbb{R}^{E} yRE,则 X X X Y Y Y之间的协方差定义为:
Cov ⁡ [ x , y ] = E [ x y ⊤ ] − E [ x ] E [ y ] ⊤ = Cov ⁡ [ y , x ] ⊤ ∈ R D × E \operatorname{Cov}[\boldsymbol{x}, \boldsymbol{y}]=\mathbb{E}\left[\boldsymbol{x} \boldsymbol{y}^{\top}\right]-\mathbb{E}[\boldsymbol{x}] \mathbb{E}[\boldsymbol{y}]^{\top}=\operatorname{Cov}[\boldsymbol{y}, \boldsymbol{x}]^{\top} \in \mathbb{R}^{D \times E} Cov[x,y]=E[xy]E[x]E[y]=Cov[y,x]RD×E

定义6.6可以应用于两个相同的多元随机变量,从而产生一个有用的概念,直观地捕捉随机变量的“扩散程度”。对于一个多元随机变量,方差描述了该随机变量的单个维度之间的关系。

定义 6.7 方差

状态为 x ∈ R D \boldsymbol{x} \in \mathbb{R}^{D} xRD且均值向量为 μ ∈ R D \boldsymbol{\mu} \in \mathbb{R}^{D} μRD的随机变量 X X X的方差(variance)定义为

V X [ x ] = Cov ⁡ X [ x , x ] = E X [ ( x − μ ) ( x − μ ) ⊤ ] = E X [ x x ⊤ ] − E X [ x ] E X [ x ] ⊤ = [ Cov ⁡ [ x 1 , x 1 ] Cov ⁡ [ x 1 , x 2 ] … Cov ⁡ [ x 1 , x D ] Cov ⁡ [ x 2 , x 1 ] Cov ⁡ [ x 2 , x 2 ] … Cov ⁡ [ x 2 , x D ] ⋮ ⋮ ⋱ ⋮ Cov ⁡ [ x D , x 1 ] … … Cov ⁡ [ x D , x D ] ] \begin{aligned}\mathbb{V}_{X}[\boldsymbol{x}] &=\operatorname{Cov}_{X}[\boldsymbol{x}, \boldsymbol{x}] \\&=\mathbb{E}_{X}\left[(\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{x}-\boldsymbol{\mu})^{\top}\right]=\mathbb{E}_{X}\left[\boldsymbol{x} \boldsymbol{x}^{\top}\right]-\mathbb{E}_{X}[\boldsymbol{x}] \mathbb{E}_{X}[\boldsymbol{x}]^{\top} \\&=\left[\begin{array}{cccc}\operatorname{Cov}\left[x_{1}, x_{1}\right] & \operatorname{Cov}\left[x_{1}, x_{2}\right] & \ldots & \operatorname{Cov}\left[x_{1}, x_{D}\right] \\\operatorname{Cov}\left[x_{2}, x_{1}\right] & \operatorname{Cov}\left[x_{2}, x_{2}\right] & \ldots & \operatorname{Cov}\left[x_{2}, x_{D}\right] \\\vdots & \vdots & \ddots & \vdots \\\operatorname{Cov}\left[x_{D}, x_{1}\right] & \ldots & \ldots & \operatorname{Cov}\left[x_{D}, x_{D}\right]\end{array}\right]\end{aligned} VX[x]=CovX[x,x]=EX[(xμ)(xμ)]=EX[xx]EX[x]EX[x]=Cov[x1,x1]Cov[x2,x1]Cov[xD,x1]Cov[x1,x2]Cov[x2,x2]Cov[x1,xD]Cov[x2,xD]Cov[xD,xD]

上式中的 D × D D × D D×D矩阵称为多元随机变量 X X X的协方差矩阵(covariance matrix)。协方差矩阵是对称的,且半正定的,它告诉我们数据的扩散情况。协方差矩阵的对角线包含边缘分布
p ( x i ) = ∫ p ( x 1 , … , x D ) d x \ i p\left(x_{i}\right)=\int p\left(x_{1}, \ldots, x_{D}\right) \mathrm{d} x_{\backslash i} p(xi)=p(x1,,xD)dx\i

的方差。其中“ \ i \backslash i \i”表示“除了 i i i之外的所有变量”。非对角线项为交叉协方差项 C o v [ x i , x j ] Cov[x_i, x_j] Cov[xi,xj] i , j = 1 , … , D , i ≠ j i, j=1, \ldots, D, i \neq j i,j=1,,D,i=j

备注
在这本书中,为了便于理解,我们一般假设协方差矩阵是正定的。因此,我们不讨论半正定(低秩)协方差矩阵的极端情况。

当我们想比较不同随机变量对之间的协方差时,每个随机变量的方差都会影响协方差的值。协方差的标准化版本称为相关(correlation)。

定义 6.8相关

两个随机变量 X X X Y Y Y的相关(correlation)为:
corr ⁡ [ x , y ] = Cov ⁡ [ x , y ] V [ x ] V [ y ] ∈ [ − 1 , 1 ] \operatorname{corr}[x, y]=\frac{\operatorname{Cov}[x, y]}{\sqrt{\mathbb{V}[x] \mathbb{V}[y]}} \in[-1,1] corr[x,y]=V[x]V[y] Cov[x,y][1,1]

相关矩阵是被标准化的随机变量 x / σ ( x ) x/σ(x) x/σ(x)的协方差矩阵。换句话说,每个随机变量在相关矩阵中都除以其标准差(方差的平方根)。

协方差(和相关)表示两个随机变量是如何相关的;参见图6.5。正相关 c o r r [ x , y ] corr[x, y] corr[x,y]意味着当 x x x增长时, y y y也会增长。负相关意味着随着 x x x的增加, y y y的减少。

在这里插入图片描述
图 6.5二维数据集沿每个轴(彩色线)具有相同的均值和方差,但协方差不同。

6.4.2 经验均值和协方差

第6.4.1节中的定义通常也被称为总体均值和协方差(population mean and covariance),因为它指的是总体的真实统计数据。在机器学习中,我们需要从数据的经验观察中学习。考虑一个随机变量 X X X。从总体统计到经验统计的实现有两个概念步骤。

首先,我们有一个有限的数据集(大小为 N N N)来构造一个经验统计量,它是含有有限个相同随机变量 X 1 , . . . , X N X_1,...,X_N X1,...,XN的函数。

然后,我们观察数据,也就是说获得每个随机变量的观测值 x 1 , . . . , x N x_1,...,x_N x1,...,xN并应用经验统计量。

定义 6.9 经验均值和协方差

经验平均(empirical mean)向量是每个变量的观测值的算术平均值,定义为
x ‾ : = 1 N ∑ n = 1 N x n ( 6.41 ) \overline{\boldsymbol{x}}:=\frac{1}{N} \sum_{n=1}^{N} \boldsymbol{x}_{n}\qquad (6.41) x:=N1n=1Nxn(6.41)
其中 x n ∈ R D \boldsymbol{x}_{n} \in \mathbb{R}^{D} xnRD

与经验均值相似,经验协方差矩阵是 D × D D×D D×D矩阵
Σ : = 1 N ∑ n = 1 N ( x n − x ‾ ) ( x n − x ‾ ) ⊤ ( 6.42 ) \boldsymbol{\Sigma}:=\frac{1}{N} \sum_{n=1}^{N}\left(\boldsymbol{x}_{n}-\overline{\boldsymbol{x}}\right)\left(\boldsymbol{x}_{n}-\overline{\boldsymbol{x}}\right)^{\top}\qquad (6.42) Σ:=N1n=1N(xnx)(xnx)(6.42)

备注:在整本书中,我们使用的经验协方差,是一个有偏估计。无偏协方差(有时称为修正协方差)的分母是 N − 1 N−1 N1而不是 N N N

为了计算特定数据集的统计数据,我们将使用实现(观测) x 1 , … , x N \boldsymbol{x}_{1}, \ldots, \boldsymbol{x}_{N} x1,,xN和使用(6.41)和(6.42)。经验协方差矩阵是对称的,半正定的(见3.2.3节)。

6.4.3 方差的三个表达式

我们现在关注单个随机变量 X X X,并使用前面的经验公式推导出三种方差表达式。下面的推导对于总体方差是一样的,只是我们不需要考虑积分。方差的标准定义,与协方差的定义(定义6.5)相对应,是随机变量 X X X与其期望值 µ µ µ的平方偏差的期望,即
V X [ x ] : = E X [ ( x − μ ) 2 ] ( 6.43 ) \mathbb{V}_{X}[x]:=\mathbb{E}_{X}\left[(x-\mu)^{2}\right]\qquad (6.43) VX[x]:=EX[(xμ)2](6.43)

(6.43)中的期望和平均值 μ = E X ( x ) \mu= \mathbb{E}_X(x) μ=EX(x)使用(6.32)计算,取决于 X X X是离散的还是连续的随机变量。(6.43)中表示的方差可以说是一个新的随机变量 Z : = ( X − µ ) 2 Z:= (X−µ)^2 Z:=(Xµ)2的均值。

当根据经验估计(6.43)中的方差时,我们需要使用一个两阶段的算法:首先利用数据使用(6.41)计算平均值 µ µ µ,然后使用这个估计值 µ ^ \hat{µ} µ^计算方差。

事实证明,我们可以通过整理表达式来避免两个阶段。(6.43)中的公式可以转换为所谓的方差的原始分数公式(raw-score formula for variance):
V X [ x ] = E X [ x 2 ] − ( E X [ x ] ) 2 ( 6.44 ) \mathbb{V}_{X}[x]=\mathbb{E}_{X}\left[x^{2}\right]-\left(\mathbb{E}_{X}[x]\right)^{2}\qquad (6.44) VX[x]=EX[x2](EX[x])2(6.44)

(6.44)中的表达式可以这样记住:“平方的均值减去均值的平方”。它只需对数据进行一次计算,因为我们可以同时计算 x i x_i xi(计算平均值)和 x i 2 x^2_i xi2,其中 x i x_i xi是第 i i i个观测值。不幸的是,如果以这种方式计算,它在数值上可能不稳定。

方差的原始分数版本在机器学习中是有用的,例如,在推导偏差-方差分解时(Bishop, 2006)。

理解方差的第三种方式是,它是所有观测值对的差的总和。考虑随机变量 X X X的一个样本 x 1 , … , x N x_{1}, \ldots, x_{N} x1,,xN,我们计算 x i x_i xi x j x_j xj对之间的平方差。通过展开平方差,我们可以证明 N 2 N^2 N2个观测值对的差的总和是观测值的经验方差:
1 N 2 ∑ i , j = 1 N ( x i − x j ) 2 = 2 [ 1 N ∑ i = 1 N x i 2 − ( 1 N ∑ i = 1 N x i ) 2 ] ( 6.45 ) \frac{1}{N^{2}} \sum_{i, j=1}^{N}\left(x_{i}-x_{j}\right)^{2}=2\left[\frac{1}{N} \sum_{i=1}^{N} x_{i}^{2}-\left(\frac{1}{N} \sum_{i=1}^{N} x_{i}\right)^{2}\right]\qquad (6.45) N21i,j=1N(xixj)2=2N1i=1Nxi2(N1i=1Nxi)2(6.45)

我们看到(6.45)是原始分数表达式(6.44)的两倍。这意味着我们可以用观测值两两之间的距离的总和( N 2 N^2 N2个)表示偏离均值的偏离值总和(有 N N N个)。

几何上,这意味着在一个点集中,点两两之间的距离和点到点集中心的距离是等价的。

从计算的角度来看,这意味着通过计算平均值((6.45)右侧的第二项,含 N N N项和),然后计算方差((6.45)右侧的第一项,含 N N N项和),我们可以得到一个包含 N 2 N^2 N2项和的表达式((6.45)左侧)。

6.4.4 随机变量的和与变换

我们有时会对一种无法用教科书上的分布(我们在第6.5节和第6.6节中介绍了一些)很好地解释的现象进行建模,因此需要随机变量进行简单的操作(例如:两个随机变量相加)。

考虑两个随机变量 X , Y X,Y X,Y,状态为 x , y ∈ R D \boldsymbol{x}, \boldsymbol{y} \in \mathbb{R}^{D} x,yRD,那么:
E [ x + y ] = E [ x ] + E [ y ] ( 6.46 ) \mathbb{E}[\boldsymbol{x}+\boldsymbol{y}]=\mathbb{E}[\boldsymbol{x}]+\mathbb{E}[\boldsymbol{y}]\qquad(6.46) E[x+y]=E[x]+E[y](6.46)
E [ x − y ] = E [ x ] − E [ y ] ( 6.47 ) \mathbb{E}[\boldsymbol{x}-\boldsymbol{y}]=\mathbb{E}[\boldsymbol{x}]-\mathbb{E}[\boldsymbol{y}]\qquad(6.47) E[xy]=E[x]E[y](6.47)
V [ x + y ] = V [ x ] + V [ y ] + Cov ⁡ [ x , y ] + Cov ⁡ [ y , x ] ( 6.48 ) \mathbb{V}[\boldsymbol{x}+\boldsymbol{y}]=\mathbb{V}[\boldsymbol{x}]+\mathbb{V}[\boldsymbol{y}]+\operatorname{Cov}[\boldsymbol{x}, \boldsymbol{y}]+\operatorname{Cov}[\boldsymbol{y}, \boldsymbol{x}]\qquad(6.48) V[x+y]=V[x]+V[y]+Cov[x,y]+Cov[y,x](6.48)
V [ x − y ] = V [ x ] + V [ y ] − Cov ⁡ [ x , y ] − Cov ⁡ [ y , x ] ( 6.49 ) \mathbb{V}[\boldsymbol{x}-\boldsymbol{y}]=\mathbb{V}[\boldsymbol{x}]+\mathbb{V}[\boldsymbol{y}]-\operatorname{Cov}[\boldsymbol{x}, \boldsymbol{y}]-\operatorname{Cov}[\boldsymbol{y}, \boldsymbol{x}]\qquad(6.49) V[xy]=V[x]+V[y]Cov[x,y]Cov[y,x](6.49)

均值和协方差在随机变量的仿射变换中表现出一些有用的特性。假设一个随机变量 X X X的均值为 μ \boldsymbol{μ} μ,协方差矩阵为 Σ \boldsymbol{\Sigma} Σ,且 X X X的(确定性)仿射变换为: y = A x + b \boldsymbol{y}=\boldsymbol{A}\boldsymbol{x}+\boldsymbol{b} y=Ax+b y \boldsymbol{y} y本身就是一个随机变量意味着其均值向量和协方差矩阵分别由下式给出:
E Y [ y ] = E X [ A x + b ] = A E X [ x ] + b = A μ + b ( 6.50 ) \mathbb{E}_{Y}[\boldsymbol{y}]=\mathbb{E}_{X}[\boldsymbol{A} \boldsymbol{x}+\boldsymbol{b}]=\boldsymbol{A} \mathbb{E}_{X}[\boldsymbol{x}]+\boldsymbol{b}=\boldsymbol{A} \boldsymbol{\mu}+\boldsymbol{b}\qquad (6.50) EY[y]=EX[Ax+b]=AEX[x]+b=Aμ+b(6.50)
V Y [ y ] = V X [ A x + b ] = V X [ A x ] = A V X [ x ] A ⊤ = A Σ A ⊤ ( 6.51 ) \mathbb{V}_{Y}[\boldsymbol{y}]=\mathbb{V}_{X}[\boldsymbol{A} \boldsymbol{x}+\boldsymbol{b}]=\mathbb{V}_{X}[\boldsymbol{A} \boldsymbol{x}]=\boldsymbol{A} \mathbb{V}_{X}[\boldsymbol{x}] \boldsymbol{A}^{\top}=\boldsymbol{A} \boldsymbol{\Sigma} \boldsymbol{A}^{\top}\qquad(6.51) VY[y]=VX[Ax+b]=VX[Ax]=AVX[x]A=AΣA(6.51)

另外,
Cov ⁡ [ x , y ] = E [ x ( A x + b ) ⊤ ] − E [ x ] E [ A x + b ] ⊤ = E [ x ] b ⊤ + E [ x x ⊤ ] A ⊤ − μ b ⊤ − μ μ ⊤ A ⊤ = μ b ⊤ − μ b ⊤ + ( E [ x x ⊤ ] − μ μ ⊤ ) A ⊤ = Σ A ⊤ , \begin{aligned}\operatorname{Cov}[\boldsymbol{x}, \boldsymbol{y}] &=\mathbb{E}\left[\boldsymbol{x}(\boldsymbol{A} \boldsymbol{x}+\boldsymbol{b})^{\top}\right]-\mathbb{E}[\boldsymbol{x}] \mathbb{E}[\boldsymbol{A} \boldsymbol{x}+\boldsymbol{b}]^{\top} \\&=\mathbb{E}[\boldsymbol{x}] \boldsymbol{b}^{\top}+\mathbb{E}\left[\boldsymbol{x} \boldsymbol{x}^{\top}\right] \boldsymbol{A}^{\top}-\boldsymbol{\mu} \boldsymbol{b}^{\top}-\boldsymbol{\mu} \boldsymbol{\mu}^{\top} \boldsymbol{A}^{\top} \\&=\boldsymbol{\mu} \boldsymbol{b}^{\top}-\boldsymbol{\mu} \boldsymbol{b}^{\top}+\left(\mathbb{E}\left[\boldsymbol{x} \boldsymbol{x}^{\top}\right]-\boldsymbol{\mu} \boldsymbol{\mu}^{\top}\right) \boldsymbol{A}^{\top} \\& \stackrel{}{=} \boldsymbol{\Sigma} \boldsymbol{A}^{\top},\end{aligned} Cov[x,y]=E[x(Ax+b)]E[x]E[Ax+b]=E[x]b+E[xx]AμbμμA=μbμb+(E[xx]μμ)A=ΣA,

其中 Σ = E [ x x ⊤ ] − μ μ ⊤ \boldsymbol{\Sigma}=\mathbb{E}\left[\boldsymbol{x} \boldsymbol{x}^{\top}\right]-\boldsymbol{\mu} \boldsymbol{\mu}^{\top} Σ=E[xx]μμ X X X的方差。

6.4.5 统计独立性

定义 6.10 (统计)独立性

两个随机变量 X , Y X,Y X,Y是统计独立的(statistically independent),当且仅当:
p ( x , y ) = p ( x ) p ( y ) p(\boldsymbol{x}, \boldsymbol{y})=p(\boldsymbol{x}) p(\boldsymbol{y}) p(x,y)=p(x)p(y)

直观地说,两个随机变量 X X X Y Y Y是独立的,那么知道 Y Y Y的值并不会添加关于 X X X的任何附加信息(反之亦然)。如果 X X X Y Y Y是(统计上)独立的,那么
p ( y ∣ x ) = p ( y ) p(\boldsymbol{y} \mid \boldsymbol{x})=p(\boldsymbol{y}) p(yx)=p(y)
p ( x ∣ y ) = p ( x ) p(\boldsymbol{x} \mid \boldsymbol{y})=p(\boldsymbol{x}) p(xy)=p(x)
V X , Y [ x + y ] = V X [ x ] + V Y [ y ] \mathbb{V}_{X, Y}[\boldsymbol{x}+\boldsymbol{y}]=\mathbb{V}_{X}[\boldsymbol{x}]+\mathbb{V}_{Y}[\boldsymbol{y}] VX,Y[x+y]=VX[x]+VY[y]
Cov ⁡ X , Y [ x , y ] = 0 \operatorname{Cov}_{X, Y}[\boldsymbol{x}, \boldsymbol{y}]=\mathbf{0} CovX,Y[x,y]=0

最后一点是充分不必然的,即,两个随机变量的协方差为零,但在统计上可能不独立。为了理解为什么,回想一下协方差是只能测量线性相关。而非线性相关的随机变量可能协方差也为零。

例 6.5

考虑随机变量 X X X,其均值为0( E X [ x ] = 0 \mathbb{E}_{X}[x]=0 EX[x]=0),且 E X [ x 2 ] = 0 \mathbb{E}_{X}\left[x^{2}\right]=0 EX[x2]=0。令 y = x 3 y=x^3 y=x3( y y y是独立于 x x x的),计算协方差:
Cov ⁡ [ x , y ] = E [ x y ] − E [ x ] E [ y ] = E [ x 3 ] = 0 \operatorname{Cov}[x, y]=\mathbb{E}[x y]-\mathbb{E}[x] \mathbb{E}[y]=\mathbb{E}\left[x^{3}\right]=0 Cov[x,y]=E[xy]E[x]E[y]=E[x3]=0

在机器学习中,我们经常考虑可以建模为独立同分布( independent and identically distributed,i.i.d.)的随机变量 X 1 , . . . , X N X_1,...,X_N X1,...,XN的问题。对于两个以上的随机变量,“独立”一词(定义6.10)通常指相互独立的随机变量,其中所有子集都是独立的(见Pollard(2002年,第4章)和Jacod and Protter(2004年,第3章))。短语“同分布”意味着所有的随机变量都来自同一个分布。

另一个在机器学习中很重要的概念是条件独立性。

定义 6.11 条件独立性 (Conditional Independence)
两个随机变量 X X X Y Y Y在给定 Z Z Z的条件下是独立的当且仅当
p ( x , y ∣ z ) = p ( x ∣ z ) p ( y ∣ z )  对于任意 z ∈ Z ( 6.55 ) p(\boldsymbol{x}, \boldsymbol{y} \mid \boldsymbol{z})=p(\boldsymbol{x} \mid \boldsymbol{z}) p(\boldsymbol{y} \mid \boldsymbol{z}) \quad \text { 对于任意} \quad \boldsymbol{z} \in \mathcal{Z}\qquad(6.55) p(x,yz)=p(xz)p(yz) 对于任意zZ(6.55)
其中 Z \mathcal{Z} Z是随机变量 Z Z Z的状态集。我们用 X ⊥  ⁣ ⁣ ⁣ ⁣ ⊥ Y ∣ Z X \perp\!\!\!\!\perp Y \mid Z XYZ来表示给定 Z Z Z X X X条件独立于 Y Y Y

定义6.11要求(6.55)中的关系必须适用于 z \boldsymbol{z} z的每一个值。对(6.55)的解释可以理解为“给定关于 z \boldsymbol{z} z的知识, x \boldsymbol{x} x y \boldsymbol{y} y的分布被分解”。如果我们写 X ⊥  ⁣ ⁣ ⁣ ⁣ ⊥ Y ∣ ∅ X \perp\!\!\!\!\perp Y \mid ∅ XY,独立性可以说是条件独立性的特例。利用概率的乘积法则(6.22),我们可以把(6.55)的左边展开得到

p ( x , y ∣ z ) = p ( x ∣ y , z ) p ( y ∣ z ) ( 6.56 ) p(\boldsymbol{x}, \boldsymbol{y} \mid \boldsymbol{z})=p(\boldsymbol{x} \mid \boldsymbol{y}, \boldsymbol{z}) p(\boldsymbol{y} \mid \boldsymbol{z})\qquad(6.56) p(x,yz)=p(xy,z)p(yz)(6.56)

通过比较(6.55)和(6.56)的右边,我们可以看到它们都含 p ( y ∣ z ) p(\boldsymbol{y} |\boldsymbol{z}) p(yz),因此
p ( x ∣ y , z ) = p ( x ∣ z ) ( 6.57 ) p(\boldsymbol{x} \mid \boldsymbol{y}, \boldsymbol{z})=p(\boldsymbol{x} \mid \boldsymbol{z})\qquad(6.57) p(xy,z)=p(xz)(6.57)

方程(6.57)提供了条件独立性,即 X ⊥  ⁣ ⁣ ⁣ ⁣ ⊥ Y ∣ Z X \perp\!\!\!\!\perp Y \mid Z XYZ的另一种定义。这表示“假设我们知道 Z Z Z,关于 Y Y Y的知识不会改变我们对 X X X的认识”。

6.4.6 随机变量的内积

回想一下第3.2节对内积的定义。我们也可以定义一个随机变量之间的内积,这将在本节介绍。如果我们有两个不相关的随机变量 X X X Y Y Y,那么
V [ x + y ] = V [ x ] + V [ y ] ( 6.58 ) \mathbb{V}[x+y]=\mathbb{V}[x]+\mathbb{V}[y]\qquad (6.58) V[x+y]=V[x]+V[y](6.58)
因为方差是用平方单位来度量的,所以这看起来很像直角三角形的勾股定理: c 2 = a 2 + b 2 c^2=a^2+b^2 c2=a2+b2

在下面,我们看看是否能在(6.58)中找到不相关随机变量方差关系的几何解释。

随机变量可以看作是向量空间中的向量,我们可以定义内积来获得随机变量的几何性质(Eaton,2007)。如果对于零均值随机变量 X X X Y Y Y,我们定义
⟨ X , Y ⟩ : = Cov ⁡ [ x , y ] \langle X, Y\rangle:=\operatorname{Cov}[x, y] X,Y:=Cov[x,y]

我们得到了一个内积。我们看到协方差是对称的,正定的,并且在任何一个参数中都是线性的。
Cov ⁡ [ x , x ] = 0 ⟺ x = 0 Cov ⁡ [ α x + z , y ] = α Cov ⁡ [ x , y ] + Cov ⁡ [ z , y ]  for  α ∈ R \begin{array}{l}\operatorname{Cov}[x, x]=0 \Longleftrightarrow x=0 \\\operatorname{Cov}[\alpha x+z, y]= \alpha \operatorname{Cov}[x, y]+ \operatorname{Cov}[z, y] \text { for } \alpha \in \mathbb{R}\end{array} Cov[x,x]=0x=0Cov[αx+z,y]=αCov[x,y]+Cov[z,y] for αR

随机变量的长度是
∥ X ∥ = Cov ⁡ [ x , x ] = V [ x ] = σ [ x ] \|X\|=\sqrt{\operatorname{Cov}[x, x]}=\sqrt{\mathbb{V}[x]}=\sigma[x] X=Cov[x,x] =V[x] =σ[x]

即它的标准差。随机变量越长,不确定性越大;长度为0的随机变量是确定性的。

如果我们考虑两个随机变量 X X X Y Y Y之间的夹角 θ θ θ,我们得到
cos ⁡ θ = ⟨ X , Y ⟩ ∥ X ∥ ∥ Y ∥ = Cov ⁡ [ x , y ] V [ x ] V [ y ] \cos \theta=\frac{\langle X, Y\rangle}{\|X\|\|Y\|}=\frac{\operatorname{Cov}[x, y]}{\sqrt{\mathbb{V}[x] \mathbb{V}[y]}} cosθ=XYX,Y=V[x]V[y] Cov[x,y]

这是两个随机变量之间的相关性(定义6.8)。这意味着,当我们从几何角度考虑两个随机变量时,我们可以把它们的相关性看作是两个随机变量之间夹角的余弦。根据定义3.7,我们知道 X ⊥ Y ⟺ ⟨ X , Y ⟩ = 0 X \perp Y \Longleftrightarrow\langle X, Y\rangle=0 XYX,Y=0。在我们的例子中,这意味着 X X X Y Y Y是正交的当且仅当 C o v [ X , Y ] = 0 Cov[X,Y]=0 Cov[XY]=0,即它们是不相关的。图6.6说明了这种关系。
在这里插入图片描述
图6.6 随机变量的几何。如果随机变量 X X X Y Y Y不相关,则它们是对应向量空间中的正交向量,且勾股定理也适用。

备注
使用之前内积定义的欧几里得距离来比较概率分布似乎是个不错的选择,但不幸的是,这不是获得分布之间距离的最佳方法。回想一下,概率质量(或密度)是正的,需要加起来等于1。这些限制意味着分布存在于一种叫做统计流形(statistical manifold)的东西上。对概率分布空间的研究被称为信息几何( information geometry)。计算分布之间的距离通常使用Kullback-Leibler散度(KL散度)来完成,它是距离的推广,它解释了统计流形的性质。正如欧氏距离是矩阵的一种特殊情况一样(第3.3节),KL散度是另外两种广义散度的一种特殊情况,它们被称为Bregman散度和 f f f-散度。关于它们区别的研究超出了这本书的范围,读者可以参考信息几何领域的创始人之一Amari(2016)的新书了解更多细节。

6.5 高斯分布

高斯分布是被研究得最充分的连续型随机变量的概率分布。它也被称为正态分布(normal distribution)。它的重要性源于它具有许多方便计算的性质,我们将在下文中讨论这些性质。特别地,我们将使用它来定义线性回归的似然和先验(第9章),以及应用于密度估计中的的高斯混合模型(第11章)。

还有许多其他的机器学习领域也受益于使用高斯分布,例如高斯过程,变分推理和强化学习。它也广泛应用于其他应用领域,如信号处理(如卡尔曼滤波器)、控制(如线性二次调节器)和统计(如假设检验)。

对于一个单变量随机变量,高斯分布的密度为:
p ( x ∣ μ , σ 2 ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) ( 6.62 ) p\left(x \mid \mu, \sigma^{2}\right)=\frac{1}{\sqrt{2 \pi \sigma^{2}}} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)\qquad (6.62) p(xμ,σ2)=2πσ2 1exp(2σ2(xμ)2)(6.62)

多元高斯分布可由均值向量 µ \boldsymbol{µ} µ和协方差矩阵 Σ \boldsymbol{\Sigma} Σ充分描述,定义为
p ( x ∣ μ , Σ ) = ( 2 π ) − D 2 ∣ Σ ∣ − 1 2 exp ⁡ ( − 1 2 ( x − μ ) ⊤ Σ − 1 ( x − μ ) ) p(\boldsymbol{x} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma})=(2 \pi)^{-\frac{D}{2}}|\boldsymbol{\Sigma}|^{-\frac{1}{2}} \exp \left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{\top} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right) p(xμ,Σ)=(2π)2DΣ21exp(21(xμ)Σ1(xμ))

其中 x ∈ R D \boldsymbol{x} \in \mathbb{R}^{D} xRD,我们写成 p ( x ) = N ( x ∣ μ , Σ ) p(\boldsymbol{x})=\mathcal{N}(\boldsymbol{x} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma}) p(x)=N(xμ,Σ) X ∼ N ( μ , Σ ) X \sim \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma}) XN(μ,Σ)

在这里插入图片描述
图 6.7两个随机变量 x 1 x_1 x1 x 2 x_2 x2的高斯分布。
在这里插入图片描述
图 6.8 呈高斯分布的100个样本点。(a)单变量:红色的十字表示平均值,红色的线表示方差的程度。(b)双变量:红色的叉表示平均值,彩色的线表示密度的等高线。

图6.7显示了具有相应等高线图的双变量高斯分布(网格)。图6.8显示了呈一元高斯分布和二元高斯分布的相应样本点。

具有零均值和单位协方差的高斯分布,即 μ = 0 \boldsymbol{μ}=\boldsymbol{0} μ=0 Σ = I \boldsymbol{\Sigma}=I Σ=I,称为标准正态分布(standard normal distribution)。

高斯分布在统计估计和机器学习中有着广泛的应用,因为它们有封闭形式的边缘分布和条件分布。在第9章中,我们在线性回归中将广泛地使用这些封闭形式的表达式。使用高斯随机变量建模的一个主要优点是变量变换(第6.7节)。由于高斯分布完全由其均值和协方差来表示,我们通常可以通过对随机变量的均值和协方差进行变换来得到变换后的分布。

6.5.1 高斯分布的边缘分布和条件分布是高斯分布

在下文中,我们将考虑多元随机变量的边缘分布和条件分布的一般情况。如果在第一次阅读时感到迷惑,建议读者考虑两个一元随机变量的情况。(多元统计分析:https://www.bilibili.com/video/BV1Zj411f7KF)设 X X X Y Y Y是两个多元随机变量,它们可能有不同的维数。为了考虑应用概率的加法法则和条件概率的影响,我们显式地用向量连接的形式 [ x ⊤ , y ⊤ ] \left[\boldsymbol{x}^{\top}, \boldsymbol{y}^{\top}\right] [x,y]表示高斯分布:
p ( x , y ) = N ( [ μ x μ y ] , [ Σ x x Σ x y Σ y x Σ y y ] ) ( 6.64 ) p(\boldsymbol{x}, \boldsymbol{y})=\mathcal{N}\left(\left[\begin{array}{l}\boldsymbol{\mu}_{x} \\\boldsymbol{\mu}_{y}\end{array}\right],\left[\begin{array}{ll}\boldsymbol{\Sigma}_{x x} & \boldsymbol{\Sigma}_{x y} \\\boldsymbol{\Sigma}_{y x} & \boldsymbol{\Sigma}_{y y}\end{array}\right]\right)\qquad(6.64) p(x,y)=N([μxμy],[ΣxxΣyxΣxyΣyy])(6.64)

其中 Σ x x = Cov ⁡ [ x , x ] \boldsymbol{\Sigma}_{x x}=\operatorname{Cov}[\boldsymbol{x}, \boldsymbol{x}] Σxx=Cov[x,x] Σ y y = Cov ⁡ [ y , y ] \boldsymbol{\Sigma}_{y y}=\operatorname{Cov}[\boldsymbol{y}, \boldsymbol{y}] Σyy=Cov[y,y]分别为 x \boldsymbol{x} x y \boldsymbol{y} y的边缘协方差矩阵。而 Σ x y = Cov ⁡ [ x , y ] \boldsymbol{\Sigma}_{x y}=\operatorname{Cov}[\boldsymbol{x}, \boldsymbol{y}] Σxy=Cov[x,y] x \boldsymbol{x} x y \boldsymbol{y} y之间的互协方差矩阵。

条件分布 p ( x ∣ y ) p(\boldsymbol{x} \mid \boldsymbol{y}) p(xy)也是高斯分布(如图6.9(c)):
p ( x ∣ y ) = N ( μ x ∣ y , Σ x ∣ y ) p(\boldsymbol{x} \mid \boldsymbol{y})=\mathcal{N}\left(\boldsymbol{\mu}_{x \mid y}, \boldsymbol{\Sigma}_{x \mid y}\right) p(xy)=N(μxy,Σxy)

μ x ∣ y = μ x + Σ x y Σ y y − 1 ( y − μ y ) ( 6.66 ) \boldsymbol{\mu}_{x \mid y}=\boldsymbol{\mu}_{x}+\boldsymbol{\Sigma}_{x y} \boldsymbol{\Sigma}_{y y}^{-1}\left(\boldsymbol{y}-\boldsymbol{\mu}_{y}\right)\qquad (6.66) μxy=μx+ΣxyΣyy1(yμy)6.66

Σ x ∣ y = Σ x x − Σ x y Σ y y − 1 Σ y x ( 6.67 ) \boldsymbol{\Sigma}_{x \mid y}=\boldsymbol{\Sigma}_{x x}-\boldsymbol{\Sigma}_{x y} \boldsymbol{\Sigma}_{y y}^{-1} \boldsymbol{\Sigma}_{y x}\qquad (6.67) Σxy=ΣxxΣxyΣyy1Σyx6.67

注意,在计算(6.66)中的平均值时, y \boldsymbol{y} y值是一个观察值,且不再是随机的。

备注
条件高斯分布出现在我们对后验分布感兴趣的场景:

  • 卡尔曼滤波(Kalman filter, 1960)是信号处理中最核心的状态估计算法之一,核心是计算联合分布的高斯条件分布(Deisenroth和Ohlsson, 2011;萨克,2013)。
  • 高斯过程(Rasmussen和Williams, 2006),这是一个分布函数的实际实现。在高斯过程中,我们假设随机变量的联合分布符合高斯分布。通过观测数据的(高斯)条件分布,我们可以确定函数的先验分布。
  • 潜在线性高斯模型(Roweis and Ghahramani, 1999;Murphy, 2012),其中包括概率主成分分析(probabilistic principal component analysis, PPCA) (Tipping and Bishop, 1999)。我们将在第10.7节中更详细地讨论PPCA。

联合高斯分布 p ( x , y ) p(\boldsymbol{x}, \boldsymbol{y}) p(x,y)(见(6.64))的边缘分布 p ( x ) p(\boldsymbol{x}) p(x)本身是高斯分布,可通过应用加法法则计算得到:
p ( x ) = ∫ p ( x , y ) d y = N ( x ∣ μ x , Σ x x ) ( 6.68 ) p(\boldsymbol{x})=\int p(\boldsymbol{x}, \boldsymbol{y}) \mathrm{d} \boldsymbol{y}=\mathcal{N}\left(\boldsymbol{x} \mid \boldsymbol{\mu}_{x}, \boldsymbol{\Sigma}_{x x}\right)\qquad (6.68) p(x)=p(x,y)dy=N(xμx,Σxx)(6.68)

相应的结果也适用于 p ( y ) p(\boldsymbol{y}) p(y),通过对 x \boldsymbol{x} x进行边缘化即可得到的。直观地看,我们忽略(即,积分出)(6.64)中的联合分布我们不感兴趣的一切。如图6.9(b)所示。

例 6.6

在这里插入图片描述
图 6.9(a)二维高斯分布;(b)联合高斯分布的边缘分布为高斯分布;(c )高斯分布的条件分布也是高斯分布。

考虑双变量高斯分布(如图6.9所示):
p ( x 1 , x 2 ) = N ( [ 0 2 ] , [ 0.3 − 1 − 1 5 ] ) p\left(x_{1}, x_{2}\right)=\mathcal{N}\left(\left[\begin{array}{l}0 \\2\end{array}\right],\left[\begin{array}{cc}0.3 & -1 \\-1 & 5\end{array}\right]\right) p(x1,x2)=N([02],[0.3115])

给定条件是 x 2 = − 1 x_2=−1 x2=1,我们可以通过应用(6.66)和(6.67)分别获得均值和方差来计算单变量高斯分布的参数:
μ x 1 ∣ x 2 = − 1 = 0 + ( − 1 ) ⋅ 0.2 ⋅ ( − 1 − 2 ) = 0.6 \mu_{x_{1} \mid x_{2}=-1}=0+(-1) \cdot 0.2 \cdot(-1-2)=0.6 μx1x2=1=0+(1)0.2(12)=0.6

σ x 1 ∣ x 2 = − 1 2 = 0.3 − ( − 1 ) ⋅ 0.2 ⋅ ( − 1 ) = 0.1 \sigma_{x_{1} \mid x_{2}=-1}^{2}=0.3-(-1) \cdot 0.2 \cdot(-1)=0.1 σx1x2=12=0.3(1)0.2(1)=0.1

因此,条件高斯分布由下式给出
p ( x 1 ∣ x 2 = − 1 ) = N ( 0.6 , 0.1 ) p\left(x_{1} \mid x_{2}=-1\right)=\mathcal{N}(0.6,0.1) p(x1x2=1)=N(0.6,0.1)

相比之下,边缘分布 p ( x 1 ) p(x_1) p(x1)可以通过应用(6.68)得到,使用了随机变量 x 1 x_1 x1的均值和方差,得到
p ( x 1 ) = N ( 0 , 0.3 ) p\left(x_{1}\right)=\mathcal{N}(0,0.3) p(x1)=N(0,0.3)

6.5.2高斯密度乘积

对于线性回归(第9章),我们需要计算一个高斯似然函数。此外,我们可能希望假设高斯分布作为先验(第9.3节)。我们应用贝叶斯定理来计算后验概率,结果是似然概率和先验概率的乘积,即两个高斯密度的乘积。两个高斯函数的乘积 N ( x ∣ a , A ) N ( x ∣ b , B ) \mathcal{N}(\boldsymbol{x} \mid \boldsymbol{a}, \boldsymbol{A}) \mathcal{N}(\boldsymbol{x} \mid \boldsymbol{b}, \boldsymbol{B}) N(xa,A)N(xb,B)得到的是一个由 c ∈ R c \in \mathbb{R} cR缩放的高斯分布 c N ( x ∣ c , C ) c \mathcal{N}(\boldsymbol{x} \mid \boldsymbol{c}, \boldsymbol{C}) cN(xc,C),其中:
C = ( A − 1 + B − 1 ) − 1 \boldsymbol{C}=\left(\boldsymbol{A}^{-1}+\boldsymbol{B}^{-1}\right)^{-1} C=(A1+B1)1
c = C ( A − 1 a + B − 1 b ) \boldsymbol{c}=\boldsymbol{C}\left(\boldsymbol{A}^{-1} \boldsymbol{a}+\boldsymbol{B}^{-1} \boldsymbol{b}\right) c=C(A1a+B1b)
c = ( 2 π ) − D 2 ∣ A + B ∣ − 1 2 exp ⁡ ( − 1 2 ( a − b ) ⊤ ( A + B ) − 1 ( a − b ) ) ( 6.76 ) c=(2 \pi)^{-\frac{D}{2}}|\boldsymbol{A}+\boldsymbol{B}|^{-\frac{1}{2}} \exp \left(-\frac{1}{2}(\boldsymbol{a}-\boldsymbol{b})^{\top}(\boldsymbol{A}+\boldsymbol{B})^{-1}(\boldsymbol{a}-\boldsymbol{b})\right)\qquad (6.76) c=(2π)2DA+B21exp(21(ab)(A+B)1(ab))6.76

缩放常数 c c c本身可以写成以 a \boldsymbol{a} a b \boldsymbol{b} b为均值并具有“膨胀的”的协方差矩阵 A + B \boldsymbol{A}+\boldsymbol{B} A+B的高斯密度形式,,即 c = N ( a ∣ b , A + B ) = N ( b ∣ a , A + B ) c=\mathcal{N}(\boldsymbol{a} \mid \boldsymbol{b}, \boldsymbol{A}+\boldsymbol{B})=\mathcal{N}(\boldsymbol{b} \mid \boldsymbol{a}, \boldsymbol{A}+\boldsymbol{B}) c=N(ab,A+B)=N(ba,A+B)

备注
为了便于标记,我们有时会用 N ( x ∣ m , S ) \mathcal{N}(\boldsymbol{x} \mid \boldsymbol{m}, \boldsymbol{S}) N(xm,S)来描述高斯密度的函数形式,即使 x \boldsymbol{x} x不是随机变量。在前面的证明中,我们已经使用了这种写法:
c = N ( a ∣ b , A + B ) = N ( b ∣ a , A + B ) c=\mathcal{N}(\boldsymbol{a} \mid \boldsymbol{b}, \boldsymbol{A}+\boldsymbol{B})=\mathcal{N}(\boldsymbol{b} \mid \boldsymbol{a}, \boldsymbol{A}+\boldsymbol{B}) c=N(ab,A+B)=N(ba,A+B)

这里, a \boldsymbol{a} a b \boldsymbol{b} b都不是随机变量。然而, c c c用这种方式写比(6.76)更紧凑。

6.5.3 和与线性变换

如果 X , Y X,Y X,Y为独立的高斯随机变量(即联合分布为 p ( x , y ) = p ( x ) p ( y ) ) p(\boldsymbol{x}, \boldsymbol{y})=p(\boldsymbol{x}) p(\boldsymbol{y})) p(x,y)=p(x)p(y)) p ( x ) = N ( x ∣ μ x , Σ x ) , p ( y ) = N ( y ∣ μ y , Σ y ) p(\boldsymbol{x})=\mathcal{N}\left(\boldsymbol{x} \mid \boldsymbol{\mu}_{x}, \boldsymbol{\Sigma}_{x}\right),p(\boldsymbol{y})=\mathcal{N}\left(\boldsymbol{y} \mid \boldsymbol{\mu}_{y}, \boldsymbol{\Sigma}_{y}\right) p(x)=N(xμx,Σx),p(y)=N(yμy,Σy)),那么 x + y \boldsymbol{x}+\boldsymbol{y} x+y仍然为高斯分布:
p ( x + y ) = N ( μ x + μ y , Σ x + Σ y ) p(\boldsymbol{x}+\boldsymbol{y})=\mathcal{N}\left(\boldsymbol{\mu}_{x}+\boldsymbol{\mu}_{y}, \boldsymbol{\Sigma}_{x}+\boldsymbol{\Sigma}_{y}\right) p(x+y)=N(μx+μy,Σx+Σy)

知道 p ( x + y ) p(\boldsymbol{x}+\boldsymbol{y}) p(x+y)是高斯的,可以使用(6.46)到(6.49)的结果立即确定均值和协方差矩阵。当我们考虑作用在随机变量上的独立同分布高斯噪声时,这一性质将非常重要,线性回归就是这样(第9章)。

例 6.7
由于期望是线性运算,我们可以得到独立高斯随机变量的加权和
p ( a x + b y ) = N ( a μ x + b μ y , a 2 Σ x + b 2 Σ y ) p(a \boldsymbol{x}+b \boldsymbol{y})=\mathcal{N}\left(a \boldsymbol{\mu}_{x}+b \boldsymbol{\mu}_{y}, a^{2} \boldsymbol{\Sigma}_{x}+b^{2} \boldsymbol{\Sigma}_{y}\right) p(ax+by)=N(aμx+bμy,a2Σx+b2Σy)

备注
第11章中有一个例子是高斯密度的加权和。这不同于高斯随机变量的加权和。

在定理6.12中,随机变量 x x x来自一个密度,该密度是两个密度 p 1 ( x ) p_1(x) p1(x) p 2 ( x ) p_2(x) p2(x)的混合,由 α α α加权。这个定理可以推广到多元随机变量的情况,因为期望的线性也适用于多元随机变量。但是,随机变量的平方需要被 x x ⊤ \boldsymbol{x}\boldsymbol{x}^{\top} xx取代。

定理 6.12
考虑两个单变量高斯密度的混合
p ( x ) = α p 1 ( x ) + ( 1 − α ) p 2 ( x ) ( 6.80 ) p(x)=\alpha p_{1}(x)+(1-\alpha) p_{2}(x)\qquad (6.80) p(x)=αp1(x)+(1α)p2(x)(6.80)

其中标量 0 < α < 1 0\lt \alpha\lt 1 0<α<1为混合权重( mixture weight), p 1 ( x ) p_1(x) p1(x) p 2 ( x ) p_2(x) p2(x)为不同参数的单变量高斯密度函数(等式6.62),即 ( μ 1 , σ 1 2 ) ≠ ( μ 2 , σ 2 2 ) \left(\mu_{1}, \sigma_{1}^{2}\right) \neq\left(\mu_{2}, \sigma_{2}^{2}\right) (μ1,σ12)=(μ2,σ22)

然后混合密度函数 p ( x ) p(x) p(x)的平均值由每个随机变量均值的加权和给出:
E [ x ] = α μ 1 + ( 1 − α ) μ 2 \mathbb{E}[x]=\alpha \mu_{1}+(1-\alpha) \mu_{2} E[x]=αμ1+(1α)μ2

混合密度函数 p ( x ) p(x) p(x)的方差则由下式给出
V [ x ] = [ α σ 1 2 + ( 1 − α ) σ 2 2 ] + ( [ α μ 1 2 + ( 1 − α ) μ 2 2 ] − [ α μ 1 + ( 1 − α ) μ 2 ] 2 ) \mathbb{V}[x]=\left[\alpha \sigma_{1}^{2}+(1-\alpha) \sigma_{2}^{2}\right]+\left(\left[\alpha \mu_{1}^{2}+(1-\alpha) \mu_{2}^{2}\right]-\left[\alpha \mu_{1}+(1-\alpha) \mu_{2}\right]^{2}\right) V[x]=[ασ12+(1α)σ22]+([αμ12+(1α)μ22][αμ1+(1α)μ2]2)

证明
混合密度 p ( x ) p(x) p(x)的平均值由每个随机变量均值的加权和给出。我们利用均值的定义(定义6.4),然后代入混合密度函数(6.80),得到
E [ x ] = ∫ − ∞ ∞ x p ( x ) d x \mathbb{E}[x]=\int_{-\infty}^{\infty} x p(x) \mathrm{d} x E[x]=xp(x)dx
= ∫ − ∞ ∞ ( α x p 1 ( x ) + ( 1 − α ) x p 2 ( x ) ) d x =\int_{-\infty}^{\infty}\left(\alpha x p_{1}(x)+(1-\alpha) x p_{2}(x)\right) \mathrm{d} x =(αxp1(x)+(1α)xp2(x))dx
= α ∫ − ∞ ∞ x p 1 ( x ) d x + ( 1 − α ) ∫ − ∞ ∞ x p 2 ( x ) d x =\alpha \int_{-\infty}^{\infty} x p_{1}(x) \mathrm{d} x+(1-\alpha) \int_{-\infty}^{\infty} x p_{2}(x) \mathrm{d} x =αxp1(x)dx+(1α)xp2(x)dx
= α μ 1 + ( 1 − α ) μ 2 ( 6.83 d ) =\alpha \mu_{1}+(1-\alpha) \mu_{2}\qquad (6.83d) =αμ1+(1α)μ2(6.83d)

为了计算方差,我们可以使用(6.44)方差的原始分数版本,这需要一个平方随机变量的期望的表达式。这里我们利用随机变量的函数(平方)的期望的定义(定义6.3),
E [ x 2 ] = ∫ − ∞ ∞ x 2 p ( x ) d x \mathbb{E}\left[x^{2}\right]=\int_{-\infty}^{\infty} x^{2} p(x) \mathrm{d} x E[x2]=x2p(x)dx
= ∫ − ∞ ∞ ( α x 2 p 1 ( x ) + ( 1 − α ) x 2 p 2 ( x ) ) d x =\int_{-\infty}^{\infty}\left(\alpha x^{2} p_{1}(x)+(1-\alpha) x^{2} p_{2}(x)\right) \mathrm{d} x =(αx2p1(x)+(1α)x2p2(x))dx
= α ∫ − ∞ ∞ x 2 p 1 ( x ) d x + ( 1 − α ) ∫ − ∞ ∞ x 2 p 2 ( x ) d x =\alpha \int_{-\infty}^{\infty} x^{2} p_{1}(x) \mathrm{d} x+(1-\alpha) \int_{-\infty}^{\infty} x^{2} p_{2}(x) \mathrm{d} x =αx2p1(x)dx+(1α)x2p2(x)dx
= α ( μ 1 2 + σ 1 2 ) + ( 1 − α ) ( μ 2 2 + σ 2 2 ) ( 6.84 d ) =\alpha\left(\mu_{1}^{2}+\sigma_{1}^{2}\right)+(1-\alpha)\left(\mu_{2}^{2}+\sigma_{2}^{2}\right)\qquad (6.84d) =α(μ12+σ12)+(1α)(μ22+σ22)(6.84d)

在最后一个等式中,我们再次使用了方差的原始分数版本(6.44) σ 2 = E [ x 2 ] − μ 2 \sigma^{2}=\mathbb{E}\left[x^{2}\right]-\mu^{2} σ2=E[x2]μ2。这使得一个随机变量平方的期望是平均值平方和方差的总和。

因此,方差由(6.84d)减去(6.83d)得到:
V [ x ] = E [ x 2 ] − ( E [ x ] ) 2 \mathbb{V}[x]=\mathbb{E}\left[x^{2}\right]-(\mathbb{E}[x])^{2} V[x]=E[x2](E[x])2
= α ( μ 1 2 + σ 1 2 ) + ( 1 − α ) ( μ 2 2 + σ 2 2 ) − ( α μ 1 + ( 1 − α ) μ 2 ) 2 =\alpha\left(\mu_{1}^{2}+\sigma_{1}^{2}\right)+(1-\alpha)\left(\mu_{2}^{2}+\sigma_{2}^{2}\right)-\left(\alpha \mu_{1}+(1-\alpha) \mu_{2}\right)^{2} =α(μ12+σ12)+(1α)(μ22+σ22)(αμ1+(1α)μ2)2
= [ α σ 1 2 + ( 1 − α ) σ 2 2 ] + ( [ α μ 1 2 + ( 1 − α ) μ 2 2 ] − [ α μ 1 + ( 1 − α ) μ 2 ] 2 ) ( 6.85 c ) =\left[\alpha \sigma_{1}^{2}+(1-\alpha) \sigma_{2}^{2}\right]+\left(\left[\alpha \mu_{1}^{2}+(1-\alpha) \mu_{2}^{2}\right]-\left[\alpha \mu_{1}+(1-\alpha) \mu_{2}\right]^{2}\right)\qquad (6.85c) =[ασ12+(1α)σ22]+([αμ12+(1α)μ22][αμ1+(1α)μ2]2)(6.85c)

备注
前面的推导适用于任何密度,但由于高斯分布完全由均值和方差决定,所以其混合密度有封闭表达式。

对于混合密度,单个组成成分可视为条件分布(以其本身的组成成分为条件)。方程(6.85c)是条件方差公式的一个例子,也被称为全方差定律(law of total variance),它通常说明,对于两个随机变量 X X X Y Y Y,它认为 V X [ x ] = E Y [ V X [ x ∣ y ] ] + V Y [ E X [ x ∣ y ] ] \mathbb{V}_{X}[x]=\mathbb{E}_{Y}\left[\mathbb{V}_{X}[x \mid y]\right]+\mathbb{V}_{Y}\left[\mathbb{E}_{X}[x \mid y]\right] VX[x]=EY[VX[xy]]+VY[EX[xy]],即 X X X的(全)方差是条件方差的期望加上条件均值的方差。

我们在例6.17中考虑了一个二元标准高斯随机变量 X X X,并对其进行了线性变换 A x \boldsymbol{A}\boldsymbol{x} Ax。结果是一个均值为零、协方差为
A A ⊤ \boldsymbol{A}\boldsymbol{A}^{\top} AA的高斯随机变量。观察到再添加一个常量向量将改变分布的均值,而不影响其方差,即随机变量 x + μ \boldsymbol{x}+\boldsymbol{\mu} x+μ是具有平均值 μ \boldsymbol{\mu} μ和单位协方差的高斯分布。因此,高斯随机变量的任何线性/仿射变换后依然服从高斯分布。

考虑一个高斯分布的随机变量 X ∼ N ( μ , Σ ) X \sim \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma}) XN(μ,Σ)。对于一个适当形状的给定矩阵 A \boldsymbol{A} A,让 Y Y Y是一个随机变量,使得 y = A x \boldsymbol{y}=\boldsymbol{A}\boldsymbol{x} y=Ax x \boldsymbol{x} x的一个变换版本。我们可以通过利用期望是一个线性算子(6.50)来计算 y \boldsymbol{y} y的均值,如下所示:
E ∣ y ⌋ = E [ A x ] = A E ∣ x ⌋ = A μ \mathbb{E} \mid \boldsymbol{y}\rfloor=\mathbb{E}[\boldsymbol{A} \boldsymbol{x}]=\boldsymbol{A} \mathbb{E} \mid \boldsymbol{x}\rfloor=\boldsymbol{A} \boldsymbol{\mu} Ey=E[Ax]=AEx=Aμ

类似地, y \boldsymbol{y} y的方差可以通过使用(6.51)求得:
V [ y ] = V [ A x ] = A V [ x ] A ⊤ = A Σ A ⊤ \mathbb{V}[\boldsymbol{y}]=\mathbb{V}[\boldsymbol{A} \boldsymbol{x}]=\boldsymbol{A} \mathbb{V}[\boldsymbol{x}] \boldsymbol{A}^{\top}=\boldsymbol{A} \boldsymbol{\Sigma} \boldsymbol{A}^{\top} V[y]=V[Ax]=AV[x]A=AΣA

这意味着随机变量 y \boldsymbol{y} y服从分布:
p ( y ) = N ( y ∣ A μ , A Σ A ⊤ ) p(\boldsymbol{y})=\mathcal{N}\left(\boldsymbol{y} \mid \boldsymbol{A} \boldsymbol{\mu}, \boldsymbol{A} \boldsymbol{\Sigma} \boldsymbol{A}^{\top}\right) p(y)=N(yAμ,AΣA)

现在让我们考虑反向变换:当我们知道一个随机变量的平均值是另一个随机变量的线性变换时。对于给定的满秩矩阵 A ∈ R M × N \boldsymbol{A} \in \mathbb{R}^{M \times N} ARM×N,其中 M ≥ N M\ge N MN,设 y ∈ R M \boldsymbol{y} \in \mathbb{R}^{M} yRM为均值为 A x \boldsymbol{A}\boldsymbol{x} Ax的高斯随机变量,即:
p ( y ) = N ( y ∣ A x , Σ ) p(\boldsymbol{y})=\mathcal{N}(\boldsymbol{y} \mid \boldsymbol{A} \boldsymbol{x}, \boldsymbol{\Sigma}) p(y)=N(yAx,Σ)

那么对应的概率分布 p ( x ) p(\boldsymbol{x}) p(x)是什么?如果 A \boldsymbol{A} A是可逆的,那么我们可以写 x = A − 1 y \boldsymbol{x}=\boldsymbol{A}^{−1}\boldsymbol{y} x=A1y并应用上一段中的变换。然而,一般来说 A \boldsymbol{A} A是不可逆的,我们使用了一种类似于伪逆(3.57)的方法。也就是说,我们用 A ⊤ \boldsymbol{A}^{\top} A将两边相乘,然后两边左乘 A ⊤ A \boldsymbol{A}^{\top}\boldsymbol{A} AA的逆, A ⊤ A \boldsymbol{A}^{\top}\boldsymbol{A} AA是对称的,正定的,得到以下关系:
y = A x ⟺ ( A ⊤ A ) − 1 A ⊤ y = x \boldsymbol{y}=\boldsymbol{A} \boldsymbol{x} \Longleftrightarrow\left(\boldsymbol{A}^{\top} \boldsymbol{A}\right)^{-1} \boldsymbol{A}^{\top} \boldsymbol{y}=\boldsymbol{x} y=Ax(AA)1Ay=x

因此, x \boldsymbol{x} x y \boldsymbol{y} y的线性变换,我们得到
p ( x ) = N ( x ∣ ( A ⊤ A ) − 1 A ⊤ y , ( A ⊤ A ) − 1 A ⊤ Σ A ( A ⊤ A ) − 1 ) p(\boldsymbol{x})=\mathcal{N}\left(\boldsymbol{x} \mid\left(\boldsymbol{A}^{\top} \boldsymbol{A}\right)^{-1} \boldsymbol{A}^{\top} \boldsymbol{y},\left(\boldsymbol{A}^{\top} \boldsymbol{A}\right)^{-1} \boldsymbol{A}^{\top} \boldsymbol{\Sigma} \boldsymbol{A}\left(\boldsymbol{A}^{\top} \boldsymbol{A}\right)^{-1}\right) p(x)=N(x(AA)1Ay,(AA)1AΣA(AA)1)

6.5.4 多元高斯分布取样

我们将不解释在计算机上随机取样的细节,感兴趣的读者请参阅Gentle (2004)。在多元高斯的情况下,这个过程包括三个阶段:

首先,我们需要一个伪随机数源,它从区间[0,1]中提供一个均匀的样本;

其次,我们使用非线性变换,如Box-Muller变换(Devroye,1986)从一元高斯分布中获得样本;

最后,我们把这些样本整理成向量,从多元标准正态分布 N ( 0 , I ) \mathcal{N}(\mathbf{0}, \boldsymbol{I}) N(0,I)得到一个样本。

对于一般的多元高斯分布,即均值不为零,协方差不是单位矩阵的情形,我们则利用高斯随机变量线性变换的性质。假设我们想得到来自均值 μ \boldsymbol{μ} μ和协方差矩阵为 Σ \boldsymbol{\Sigma} Σ的多元高斯分布的样本 x i , i = 1 , … , n \boldsymbol{x}_{i}, i=1, \ldots, n xi,i=1,,n。那么我们可以从提供多元标准正态分布 N ( 0 , I ) \mathcal{N}(\mathbf{0}, \boldsymbol{I}) N(0,I)样本的采样器中构造样本。

为了从多元正态分布 N ( μ , Σ ) \mathcal{N}(\boldsymbol{\mu}, \mathbf{\Sigma}) N(μ,Σ)中获得样本,我们可以使用高斯随机变量线性变换的性质:如果 x ∼ N ( 0 , I ) \boldsymbol{x} \sim \mathcal{N}(\mathbf{0}, \boldsymbol{I}) xN(0,I),则 y = A x + μ \boldsymbol{y}=\boldsymbol{A} \boldsymbol{x}+\boldsymbol{\mu} y=Ax+μ是均值为 μ \boldsymbol{\mu} μ,协方差矩阵为 Σ \boldsymbol{\Sigma} Σ的高斯分布,其中 A A ⊤ = Σ \boldsymbol{A} \boldsymbol{A}^{\top}=\boldsymbol{\Sigma} AA=Σ A \boldsymbol{A} A的一个推荐选择是使用协方差矩阵 Σ = A A ⊤ \boldsymbol{\Sigma}=\boldsymbol{A}\boldsymbol{A}^{\top} Σ=AA的Cholesky分解(第4.3节)。Cholesky分解得到的 A \boldsymbol{A} A是三角形的,从而能提高计算效率。

翻译自:
《MATHEMATICS FOR MACHINE LEARNING》作者是 Marc Peter Deisenroth,A Aldo Faisal 和 Cheng Soon Ong

公众号后台回复【m4ml】即可获取这本书。

另外,机器学习的数学基础.pdf

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二进制人工智能

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值