统计篇（二）-- 概率论、随机过程、信息论知识汇总

长路漫漫2021

已于 2022-10-24 17:12:30 修改

阅读量1.4k

点赞数 1

分类专栏： Math 文章标签：数学统计随机过程高斯过程马尔科夫过程

于 2022-10-24 17:10:34 首次发布

本文链接：https://blog.csdn.net/xq151750111/article/details/127495987

版权

Math 专栏收录该内容

20 篇文章

订阅专栏

本文深入探讨了一维和多维正态分布的特性，包括概率密度函数、期望与方差、线性组合的分布。进一步介绍了正态分布在网络中作为先验和后验分布的角色，以及在贝叶斯推理中的应用。此外，文章还阐述了马尔可夫过程的基本概念，包括马尔可夫性质、状态转移概率和高斯过程回归。最后，提及了信息论中的熵、相对熵（KL散度）以及交叉熵在模型选择和不确定性量化中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

4 高斯分布

4.1 一维正态分布

正态分布的概率密度函数为 :
$p(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^{2}/ (2\sigma^{2})}, -\infty \lt x \lt \infty\tag{4-1}$
其中 $\mu,\sigma(\sigma>0)$ 为常数。

若随机变量 $X$ 的概率密度函数如上所述，则称 $X$ 服从参数为 $\mu,\sigma$ 的正态分布或者高斯分布，记作 $X\sim N(\mu,\sigma^2)$ 。
特别的，当 $\mu=0,\sigma=1$ 时，称为标准正态分布，其概率密度函数记作 $\varphi(x)$ ，分布函数记作 $\Phi(x)$ 。
为了计算方便，有时也记作： $\mathcal N(x;\mu,\beta^{-1}) =\sqrt{\frac{\beta}{2\pi}}\exp\left(-\frac{1}{2}\beta(x-\mu)^{2}\right)$ ，其中 $\beta \in (0,\infty)$ 。

正态分布的概率密度函数性质：

曲线关于 $x=\mu$ 对称。
曲线在 $x=\mu$ 时取最大值。
曲线在 $x=\mu \pm \sigma$ 处有拐点。
参数 $\mu$ 决定曲线的位置； $\sigma$ 决定图形的胖瘦。

若 $X\sim N(\mu,\sigma^2)$ 则：

$\frac{X-\mu}{\sigma} \sim N(0,1)$
期望： $\mathbb E[X] = \mu$ 。方差： $Var[X]=\sigma^2$ 。

有限个相互独立的正态随机变量的线性组合仍然服从正态分布：若随机变量 $X_i \sim N(\mu_i,\sigma_i^{2}),i=1,2,\cdots,n$ 且它们相互独立，则它们的线性组合： $C_1X_1+C_2X_2+\cdots+C_nX_n$ ，仍然服从正态分布（其中 $C_1,C_2,\cdots C_n$ 不全是为 0 的常数），且： $C_1X_1+C_2X_2+\cdots+C_nX_n \sim N(\sum_{i=1}^{n}C_i\mu_i,\sum_{i=1}^{n}C_i^{2}\sigma_i^{2})$ 。

4.2 多维正态分布

二维正态随机变量 $(X, Y)$ 的概率密度为：
$p(x,y)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^{2}}}\exp\{\frac{-1}{2(1-\rho^{2})}[\frac{(x-\mu_1)^{2}}{\sigma_1^{2}}\\ -2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^{2}}{\sigma_2^{2}}]\}\tag{4-2}$
根据定义，可以计算出:
$p_X(x)=\frac{1}{\sqrt{2\pi}\sigma_1}e^{-(x-\mu_1)^{2}/ (2\sigma_1^{2})}, -\infty \lt x \lt \infty \\ p_Y(y)=\frac{1}{\sqrt{2\pi}\sigma_2}e^{-(y-\mu_2)^{2}/ (2\sigma_2^{2})}, -\infty \lt y \lt \infty\\ \mathbb E[X] =\mu_1 \\ \mathbb E[Y] =\mu_2 \\ Var[X] =\sigma_1^{2} \\ Var[Y]=\sigma_2^{2}\\ Cov[X,Y]=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}(x-\mu_1)(y-\mu_2)p(x,y)dxdy=\rho \sigma_1\sigma_2\\ \rho_{XY}=\rho\tag{4-3}$
引入矩阵：
$\mathbf{\vec x}=\begin{bmatrix} x \\ y \end{bmatrix} \quad \mathbf{\vec \mu}=\begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix}\quad \mathbf{\Sigma}=\begin{bmatrix} c_{11} &c_{12}\\ c_{21} &c_{22} \end{bmatrix} = \begin{bmatrix} \sigma_1^{2} & \rho \sigma_1 \sigma_2 \\ \rho \sigma_1 \sigma_2 & \sigma_2^{2} \end{bmatrix}\tag{4-4}$

$\mathbf{\Sigma}$ 为 $(X, Y)$ 的协方差矩阵。其行列式为 $\det \mathbf{\Sigma} =\sigma_1^{2}\sigma_2^{2}(1-\rho^{2})$ ，其逆矩阵为：
$\mathbf{\Sigma}^{-1}=\frac{1}{\det\mathbf \Sigma}\begin{bmatrix} \sigma_2^{2} & -\rho \sigma_1 \sigma_2 \\ -\rho \sigma_1 \sigma_2 & \sigma_1^{2} \end{bmatrix}\tag{4-5}$
于是 $(X, Y)$ 的概率密度函数可以写作 $\mathbf {\vec x}- \mathbf {\vec \mu})^{T}$ 表示矩阵的转置：
$p(x,x)=\frac{1}{(2\pi)(\det \mathbf \Sigma)^{1/ 2}}\exp\{- \frac 12 ( \mathbf {\vec x}- \mathbf {\vec \mu})^{T} \mathbf \Sigma^{-1}( \mathbf {\vec x}- \mathbf {\vec \mu})\}\tag{4-6}$
其中：

均值 $\mu_1,\mu_2$ 决定了曲面的位置（本例中均值都为0）。
标准差 $\sigma_1,\sigma_2$ 决定了曲面的陡峭程度（本例中方差都为1）。
$\rho$ 决定了协方差矩阵的形状，从而决定了曲面的形状。
- $\rho=0$ 时，协方差矩阵对角线非零，其他位置均为零。此时表示随机变量之间不相关。
  此时的联合分布概率函数形状如下图所示，曲面在 $z = 0$ 平面的截面是个圆形：
- $\rho=0.5$ 时，协方差矩阵对角线非零，其他位置非零。此时表示随机变量之间相关。
  此时的联合分布概率函数形状如下图所示，曲面在 $z = 0$ 平面的截面是个椭圆，相当于圆形沿着直线 $y = x$ 方向压缩：
- $\rho=1$ 时，协方差矩阵对角线非零，其他位置非零。
  此时表示随机变量之间完全相关。此时的联合分布概率函数形状为：曲面在 $z = 0$ 平面的截面是直线 $y = x$ ，相当于圆形沿着直线 $y = x$ 方向压缩成一条直线。
  由于 $\rho=1$ 会导致除数为 0，因此这里给出 $\rho=0.9$ ：

多维正态随机变量 $(X_1,X_2,\cdots,X_n)$ ，引入列矩阵：
$\mathbf{\vec x}=\begin{bmatrix} x_1 \\ x_2 \\ \vdots\\ x_n \end{bmatrix} \quad \mathbf{\vec \mu}=\begin{bmatrix} \mu_1 \\ \mu_2\\ \vdots\\ \mu_n \end{bmatrix}=\begin{bmatrix} \mathbb E[X_1] \\ \mathbb E[X_2] \\ \vdots\\ \mathbb E[X_n] \end{bmatrix}\tag{4-7}$
$\pmb{\Sigma}$ 为 $(X_1,X_2,\cdots,X_n)$ 的协方差矩阵。则：
$p(x_1,x_2,x_3,\cdots,x_n)=\frac {1}{(2\pi)^{n/2}(\det \mathbf \Sigma)^{1/2}} \exp \{- \frac 12( \mathbf {\vec x}- \mathbf {\vec \mu})^{T}\mathbf \Sigma^{-1}( \mathbf {\vec x}- \mathbf {\vec \mu})\}\tag{4-8}$
记做： $\mathcal N(\mathbf{\vec x};\mathbf{\vec \mu},\mathbf\Sigma) =\sqrt{\frac{1}{(2\pi)^{n}det(\mathbf\Sigma)}}\exp\left(-\frac 12(\mathbf{\vec x-\vec \mu})^{T}\mathbf\Sigma^{-1}(\mathbf{\vec x-\vec \mu})\right)$ 。
$n$ 维正态变量具有下列四条性质：

$n$ 维正态变量的每一个分量都是正态变量；反之，若 $X_1,X_2,\cdots,X_n$ 都是正态变量，且相互独立，则 $(X_1,X_2,\cdots,X_n)$ 是 $n$ 维正态变量。
$n$ 维随机变量 $(X_1,X_2,\cdots,X_n)$ 服从 $n$ 维正态分布的充要条件是： $X_1,X_2,\cdots,X_n$ 的任意线性组合： $l_1X_1+l_2X_2+\cdots+l_nX_n$ 服从一维正态分布，其中 $l_1,l_2,\cdots,l_n$ 不全为 0 。
若 $(X_1,X_2,\cdots,X_n)$ 服从 $n$ 维正态分布，设 $Y_1,Y_2,\cdots,Y_k$ 是 $X_j,j=1,2,\cdots,n$ 的线性函数，则 $(Y_1,Y_2,\cdots,Y_k)$ 也服从多维正态分布。
这一性质称为正态变量的线性变换不变性。
设 $(X_1,X_2,\cdots,X_n)$ 服从 $X_1,X_2,\cdots,X_n$ 维正态分布，则 $(X_1,X_2,\cdots,X_n)$ 相互独立 $\Longleftrightarrow X_1,X_2,\cdots,X_n$ 两两不相关。

更多常见概率分布，请阅读：统计学中常用的分布族

5 先验分布与后验分布

在贝叶斯学派中，先验分布+数据（似然）= 后验分布 。
例如：假设需要识别一大箱苹果中的好苹果、坏苹果的概率。

根据你对苹果好、坏的认知，给出先验分布为：50个好苹果和50个坏苹果。
现在你拿出10个苹果，发现有：8个好苹果，2个坏苹果。根据数据，你得到后验分布为：58个好苹果，52个坏苹果
再拿出10个苹果，发现有：9个好苹果，1个坏苹果。根据数据，你得到后验分布为：67个好苹果，53个坏苹果
这样不断重复下去，不断更新后验分布。当一箱苹果清点完毕，则得到了最终的后验分布。
在这里：
如果不使用先验分布，仅仅清点这箱苹果中的好坏，则得到的分布只能代表这一箱苹果。
采用了先验分布之后得到的分布，可以认为是所有箱子里的苹果的分布。
当采用先验分布时：给出的好、坏苹果的个数（也就是频数）越大，则先验分布越占主导地位。

假设好苹果的概率为 $p$ ，则抽取 $N$ 个苹果中，好苹果个数为 $k$ 个的概率为一个二项分布：
$Binom(k\mid p;N)=C_N^kp^k(1-p)^{N-k}$
其中 $C_N^k$ 为组合数。
现在的问题是：好苹果的概率 $p$ 不再固定，而是服从一个分布。
假设好苹果的概率 $p$ 的先验分布为贝塔分布： $\alpha,\beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}p^{\alpha-1}(1-p)^{\beta-1}$ 。
则后验概率为：
$P(p\mid k; N,\alpha,\beta)=\frac{P(k\mid p; N)\times P(p; \alpha,\beta)}{P(k; N,\alpha,\beta)} \\ \propto P(k\mid p; N)\times P(p; \alpha,\beta)=C_N^kp^k(1-p)^{N-k}\times \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}p^{\alpha-1}(1-p)^{\beta-1}\\ \propto p^{k+\alpha-1}(1-p)^{N-k+\beta-1}\tag{5-1}$
归一化之后，得到后验概率为：
$P(p\mid k;N,\alpha,\beta)=\frac{\Gamma(\alpha+\beta+N)}{\Gamma(\alpha+k)\Gamma(\beta+N-k)}p^{k+\alpha-1}(1-p)^{N-k+\beta-1}\tag{5-2}$
好苹果概率 $p$ 的先验分布的期望为： $\mathbb E[p]=\frac{\alpha}{\alpha+\beta}$ 。好苹果概率 $p$ 的后验分布的期望为： $\mathbb E[p\mid k]=\frac{\alpha+k}{\alpha+\beta+N}$ 。

根据上述例子所述：
- 好苹果的先验概率的期望为 $\frac {50}{50+50}=\frac 12$
- 进行第一轮数据校验之后，好苹果的后验概率的期望为 $\frac {50+8}{50+50+10}=\frac{58}{110}$
如果将 $\alpha$ 视为先验的好苹果数量， $\beta$ 视为先验的坏苹果数量， $N$ 表示箱子中苹果的数量， $k$ 表示箱子中的好苹果数量（相应的， $N - k$ 就是箱子中坏苹果的数量）。则：好苹果的先验概率分布的期望、后验概率分布的期望符合人们的生活经验。
这里使用先验分布和后验分布的期望，因为 $p$ 是一个随机变量。若想通过一个数值来刻画好苹果的可能性，则用期望较好。

更一般的，如果苹果不仅仅分为好、坏两种，而是分作尺寸1、尺寸2、……尺寸K等。则 $N$ 个苹果中，有 $m_1$ 个尺寸1的苹果、 $m_2$ 个尺寸2的苹果…… $m_K$ 个尺寸 $K$ 的苹果的概率服从多项式分布：
$Mult(m_1,m_2,\cdots,m_K;\vec\mu,N)=\frac{N!}{m_1!m_2!\cdots m_K!}\prod_{k=1}^{K}\mu_k^{m_k}\tag{5-3}$
其中苹果为尺寸1的概率为 $\mu_1$ ，尺寸2的概率为 $\mu_2$ ，……尺寸 $K$ 的概率为 $\mu_K$ ， $N=\sum_{k=1}^Km_k$

假设苹果尺寸的先验概率分布为狄利克雷分布： $Dir(\vec\mu;\vec\alpha)=\frac{\Gamma(\sum_{k=1}^{K}\alpha_k)}{\sum_{k=1}^{K}\Gamma(\alpha_k)}\prod_{k=1}^{K}\mu_k^{\alpha_k-1}$ 。
苹果尺寸的先验概率分布的期望为： $\mathbb E[\vec\mu]=\left(\frac{\alpha_1}{\sum_{k=1}^K\alpha_k},\frac{\alpha_2}{\sum_{k=1}^K\alpha_k},\cdots,\frac{\alpha_K}{\sum_{k=1}^K\alpha_k}\right)$ 。
则苹果尺寸的后验概率分布也为狄里克雷分布： $Dir(\vec\mu;\vec\alpha+\mathbf{\vec m})=\frac{\Gamma(N+\sum_{k=1}^{K}\alpha_k)}{\sum_{k=1}^{K}\Gamma(\alpha_k+m_k)}\prod_{k=1}^{K}\mu_k^{\alpha_k+m_k-1}$ 。
苹果尺寸的后验概率分布的期望为： $\mathbb E[\vec\mu]=\left(\frac{\alpha_1+m_1}{N+\sum_{k=1}^K\alpha_k},\frac{\alpha_2+m_2}{N+\sum_{k=1}^K\alpha_k},\cdots,\frac{\alpha_K+m_K}{N+\sum_{k=1}^K\alpha_k}\right)$

6 随机过程

随机过程（Stochastic Process）是一组随机变量 $X_t$ 的集合，其中 $t$ 属于一个索引（index）集合 $\mathcal{T}$ 。索引集合 $\mathcal{T}$ 可以定义在时间域或者空间域，但一般为时间域，以实数或正数表示。当 $t$ 为实数时，随机过程为连续随机过程；当 $t$ 为整数时，为离散随机过程。日常生活中的很多例子包括股票的波动、语音信号、身高的变化等都可以看作是随机过程。常见的和时间相关的随机过程模型包括伯努利过程、随机游走（Random Walk）、马尔可夫过程等。和空间相关的随机过程通常称为随机场（Random Field）。比如一张二维的图片，每个像素点（变量）通过空间的位置进行索引，这些像素就组成了一个随机过程。

6.1 马尔科夫过程

马尔可夫性质在随机过程中，马尔可夫性质（Markov Property）是指一个随机过程在给定现在状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态。以离散随机过程为例，假设随机变量 $X_0,X_1,\cdots,X_T$ 构成一个随机过程。这些随机变量的所有可能取值的集合被称为状态空间（State Space）。如果 $X_{t+1}$ 对于过去状态的条件概率分布仅是 $X_t$ 的一个函数，则
$P(X_{t+1}=x_{t+1}|X_{0:t}=x_{0:t})=P(X_{t+1}=x_{t+1}|X_{t}=x_{t})\tag{6-1}$
其中 $X_{0:t}$ 表示变量集合 $X_0,X_1,\cdots,X_T$ ； $x_{0:t}$ 为在状态空间中的状态序列。

马尔可夫性质也可以描述为给定当前状态时，将来的状态与过去状态是条件独立的。

离散时间的马尔可夫过程也称为马尔可夫链（Markov Chain）。如果一个马尔可夫链的条件概率
$P(X_{t+1}=s|X_{t}=s')=m_{ss'}\tag{6-2}$
只和状态 $s$ 和 $s^{'}$ 相关，和时间 $t$ 无关，则称为时间同质的马尔可夫链（Time Homogeneous Markov Chain），其中 $m_{ss'}$ 称为状态转移概率。如果状态空间大小 $K$ 是有限的，状态转移概率可以用一个矩阵 $\in \mathbb{R}^{K\times K}$ 表示，称为状态转移矩阵（Transition Matrix），其中元素 $m_{ij}$ 表示状态 $s_i$ 转移到状态 $s_j$ 的概率。

假设状态空间大小为 $K$ ，向量 $\pmb{\pi} = [\pi_1,\cdots,\pi_K]^T$ 为状态空间中的一个分布，满足 $\pi_k ≤ 1$ 和 $\sum_{k=1}^{K}\pi_k=1$ 。

对于状态转移矩阵为 $\pmb{M}$ 的时间同质的马尔可夫链，如果存在一个分布 $\pi$ 满足
$\pmb{\pi}=\pmb{M\pi}\tag{6-3}$
即分布 $\pmb{\pi}$ 就称为该马尔可夫链的平稳分布（Stationary Distribution）。根据特征向量的定义可知， $\pmb{\pi}$ 为矩阵 $\pmb{M}$ 的（归一化）的对应特征值为1 的特征向量。

如果一个马尔可夫链的状态转移矩阵 $\pmb{M}$ 满足所有状态可遍历性以及非周期性，那么对于任意一个初始状态分布 $\pmb{\pi}^0$ ，在经过一定时间的状态转移之后，都会收敛到平稳分布，即
$\pmb{\pi}= \lim_{N\to\infty}\pmb{M}^N\pmb{\pi}^{(0)}\tag{6-4}$

6.2 高斯过程

高斯过程（Gaussian Process）也是一种应用广泛的随机过程模型。假设有一组连续随机变量 $X_0,X_1,\cdots,X_T$ ，如果由这组随机变量构成的任一有限集合
$X_{t_1,\cdots,t_N}=[X_{t_1},\cdots,X_{t_N}]^T,1\leq N \leq T\tag{6-5}$
都服从一个多元正态分布，那么这组随机变量为一个随机过程。高斯过程也可以定义为：如果 $X_{t_1},\cdots,X_{t_N}$ 的任一线性组合都服从一元正态分布，那么这组随机变量为一个随机过程。

高斯过程回归（Gaussian Process Regression）是利用高斯过程来对一个函数分布进行建模。和机器学习中参数化建模（比如贝叶斯线性回归）相比，高斯过程是一种非参数模型，可以拟合一个黑盒函数，并给出拟合结果的置信度。

假设一个未知函数 $f(\pmb{x})$ 服从高斯过程，且为平滑函数。如果两个样本 $\pmb{x}_1,\pmb{x}_2$ 比较接近，那么对应的 $f(\pmb{x}, \pmb{x}_2)$ 也比较接近。假设从函数 $𝑓(\pmb{x})$ 中采样有限个样本 $\pmb{X}= [\pmb{x}_1, \pmb{x}_2, \cdots,\pmb{x}_N]$ ，这 $N$ 个点服从一个多元正态分布，
$[f(\pmb{x}_1), f(\pmb{x}_2), \cdots,f(\pmb{x}_N)]^T\sim N(\mu(X),K(X,X))\tag{6-6}$

其中 $\pmb{\mu}(\pmb{X}) = [\mu_{(\boldsymbol{x}_1)}, \mu_{(\boldsymbol{x}_2)},\cdots,\mu_{(\boldsymbol{x}_N)}]^T$ 是均值向量， $\pmb{K}(\pmb{X}, \pmb{X}) = [k(\pmb{x}_i, \pmb{x}_j)]_{N\times N}$ 是协方差矩阵， $k(\pmb{x}_i, \pmb{x}_j)$ 为核函数，可以衡量两个样本的相似度。

在高斯过程回归中，一个常用的核函数是平方指数（Squared Exponential）函数
$k(\pmb{x}_i, \pmb{x}_j)=exp(\dfrac{-||\pmb{x}_i-\pmb{x}_j||^2}{2l^2})\tag{6-7}$
其中 $l$ 为超参数。当 $\pmb{x}_i$ 和 $\pmb{x}_j$ 越接近，其核函数的值越大，表明 $f(\pmb{x}_i)$ 和 $f(\pmb{x}_j)$ 越相关。

假设 $f(\pmb{x})$ 的一组带噪声的观测值为 $\{(\pmb{x}_n,y_n)\}_{n=1}^{N}$ ，其中 $y_n\sim N(f(\pmb{x}_n,\sigma^2)$ 为 $f(\pmb{x}_n)$ 的观测值，服从正态分布， $\sigma^2$ 为噪声方差。

对于一个新的样本点 $\pmb{x}^*$ ，我们希望预测 $f(\pmb{x}^*)$ 的观测值 $y^*$ 。令向量 $=[y_1,y_2,\cdots,y_N]^T$ 为已有的观测值，根据高斯过程的假设， $[\pmb{y}; y^*]$ 满足
$\begin{bmatrix} \pmb{y} \\y^*\end{bmatrix}\sim \left(\begin{bmatrix} \pmb{\mu}(\pmb{X}) \\\mu(\pmb{x}^*)\end{bmatrix},\begin{bmatrix} \pmb{K}(\pmb{X},\pmb{X})+\sigma^2\pmb{I} & \pmb{K}(\pmb{x}^*, \pmb{X})^T \\\pmb{K}(\pmb{x}^*, \pmb{X}) & k(\pmb{x}^*,\pmb{x}^*)\end{bmatrix} \right) \tag{6-8}$
其中 $\pmb{K}(\pmb{x}^*, \pmb{X})=[k(\pmb{x}^*,\pmb{x}_1),\cdots,k(\pmb{x}^*,\pmb{x}_n)]$

        根据上面的联合分布， $y^*$ 的后验分布为
$p(y^*|\pmb{X},\pmb{y})=N(\hat{\mu},\hat{\sigma}^2)\tag{6-9}$
        其中均值 $\hat{\mu}$ 和方差 $\hat{\sigma}$ 为
$\hat{\mu}=\pmb{K}(\pmb{x}^*, \pmb{X})(\pmb{K}(\pmb{X}, \pmb{X})+\sigma^2\pmb{I})^{-1}(\pmb{y}-\pmb{\mu}(\pmb{X}))+\mu(\pmb{x}^*)\\ \hat{\sigma}^2=k(\pmb{x}^*,\pmb{x}^*)-\pmb{K}(\pmb{x}^*, \pmb{X})(\pmb{K}(\pmb{X}, \pmb{X})+\sigma^2\pmb{I})^{-1}\pmb{K}(\pmb{x}^*, \pmb{X})^T\tag{6-10}$
        从公式可以看出，均值函数 $\pmb{\mu}(\pmb{x})$ 可以近似地互相抵消。在实际应用中，一般假设 $\mu(\pmb{x})=0$ ，均值 $\hat{\mu}$ 可以将简化为
$\hat{\mu}=\pmb{K}(\pmb{x}^*, \pmb{X})(\pmb{K}(\pmb{X}, \pmb{X})+\sigma^2\pmb{I})^{-1}\pmb{y}\tag{6-11}$
        高斯过程回归可以认为是一种有效的贝叶斯优化方法，广泛地应用于机器学习中。

7 信息论

信息论背后的原理是：从不太可能发生的事件中能学到更多的有用信息。

发生可能性较大的事件包含较少的信息。
发生可能性较小的事件包含较多的信息。
独立事件包含额外的信息。

对于事件 $X = x$ ，定义自信息self-information为： $I(x)=-\log P(x)$ 。
自信息（Self Information）表示一个随机事件所包含的信息量。一个随机事件发生的概率越高，其自信息越低。如果一个事件必然发生，其自信息为0。在自信息的定义中，对数的底可以使用2、自然常数 $e$ 或10。当底为2时，自信息的单位为bit；当底为 $e$ 时，自信息的单位为nat。
自信息仅仅处理单个输出，但是如果计算自信息的期望，它就是熵：
$H(X)=\mathbb E_{X\sim P(X)}[I(x)]=-\mathbb E_{X\sim P(X)}[\log P(x)]\tag{7-1}$
记作 $H (P)$ 。

熵越高，则随机变量的信息越多；熵越低，则随机变量的信息越少。如果变量 $X$ 当且仅当在 $x$ 时 $P (x) = 1$ ，则熵为0。也就是说，对于一个确定的信息，其熵为0，信息量也为0。如果其概率分布为一个均匀分布，则熵最大。
熵刻画了按照真实分布 $P$ 来识别一个样本所需要的编码长度的期望（即平均编码长度）。
如：含有4个字母(A,B,C,D)的样本集中，真实分布 $P=(\frac{1}{2}, \frac{1}{2}, 0, 0)$ ，则只需要1位编码即可识别样本。
对于离散型随机变量 $X$ ，假设其取值集合大小为 $K$ ，则可以证明： $0\le H(X)\le \log K$

对于随机变量 $X$ 和 $Y$ ，条件熵 $H (Y ∣ X)$ 表示：已知随机变量 $X$ 的条件下，随机变量 $Y$ 的不确定性。
它定义为： $X$ 给定条件下 $Y$ 的条件概率分布的熵对 $X$ 的期望：
$H(Y\mid X) = \mathbb E_{X\sim P(X)}[ H(Y\mid X=x)]=-\mathbb E_{(X,Y)\sim P(X,Y)} \log P(Y\mid X)\tag{7-2}$

对于离散型随机变量，有：
$H(Y\mid X) = \sum_xp(x) H(Y\mid X=x)=-\sum_x\sum_y p(x,y)\log p(y\mid x)\tag{7-3}$
对于连续型随机变量，有：
$H(Y\mid X) = \int p(x) H(Y\mid X=x) dx=-\int\int p(x,y)\log p(y\mid x) dx dy\tag{7-4}$

根据定义可以证明： $H(X,Y)=H(Y\mid X)+H(X)$ 。
即：描述 $X$ 和 $Y$ 所需要的信息是：描述 $X$ 所需要的信息加上给定 $X$ 条件下描述 $Y$ 所需的额外信息。
KL散度（也称作相对熵）：对于给定的随机变量 $X$ ，它的两个概率分布函数 $P (X)$ 和 $Q (X)$ 的区别可以用KL散度来度量：
$D_{KL}(P||Q)=\mathbb E_{X\sim P(X)}\left[\log \frac{P(x)}{Q(x)}\right]=\mathbb E_{X\sim P(X)}\left[\log P(x) -\log Q(x) \right]$

KL散度非负：当它为 0 时，当且仅当P和Q是同一个分布（对于离散型随机变量），或者两个分布几乎处处相等（对于连续型随机变量）。
KL散度不对称： $D_{KL}(P||Q) \neq D_{KL}(Q||P)$ 。
直观上看对于 $D_{KL}(P||Q)$ ，当 $P (x)$ 较大的地方， $Q (x)$ 也应该较大，这样才能使得 $P(x)\log\frac {P(x)}{Q(x)}$ 较小。
对于 $P (x)$ 较小的地方， $Q (x)$ 就没有什么限制就能够使得 $P(x)\log\frac {P(x)}{Q(x)}$ 较小。这就是KL散度不满足对称性的原因。

交叉熵cross-entropy： $H(P,Q)=H(P)+D_{KL}(P||Q)=-\mathbb E_{X\sim P(X)}\log Q(x)$ 。

交叉熵刻画了使用错误分布 Q 来表示真实分布 P 中的样本的平均编码长度。
$D_{KL(P||Q)}$ 刻画了错误分布 Q 编码真实分布 P 带来的平均编码长度的增量。
示例：假设真实分布 P 为混合高斯分布，它由两个高斯分布的分量组成。如果希望用普通的高斯分布 Q 来近似 P，则有两种方案
$Q_1^* = \arg\min _Q D_{KL}(P||Q)\\ Q_2^* = \arg\min _Q D_{KL}(Q||P)\tag{7-5}$
如果选择 $Q_1^*$ ，则：
- 当 $P (x)$ 较小的时候， $Q (x)$ 必须较小。如果 $P (x)$ 较小的时 $Q (x)$ 较大，则 $P(x)\log\frac {P(x)}{Q(x)}$ 较大。
- 当 $P (x)$ 较大的时候， $Q (x)$ 可以较大，也可以较小。
  因此 $Q_1^*$ 会贴近 $P (x)$ 的峰值。由于 $Q_1^*$ 的峰值有两个，因此 $Q_1^*$ 无法偏向任意一个峰值，最终结果就是 $Q_1^*$ 的峰值在 $P (x)$ 的两个峰值之间。
如果选择 $Q_2^*$ ，则：
- 当 $P (x)$ 较大的时候 $Q (x)$ 也必须较大。如果 $P (x)$ 较大时 $Q (x)$ 较小，则 $P(x)\log\frac {Q(x)}{P(x)}$ 较大。
- 当 $P (x)$ 较小的时候 $Q (x)$ 可以较大，也可以较小。
  因此 $Q_2^*$ 会贴近 $P (x)$ 的谷值。最终结果就是 $Q_2^*$ 会贴合 $P (x)$ 峰值的任何一个。
绝大多数场合使用 $D_{KL}(P||Q)$ ，原因是：当用分布 Q 拟合 P 时我们希望对于常见的事件，二者概率相差不大。

8 其它

假设随机变量 $X, Y$ 满足 $Y = g (X)$ ，且函数 $g(\cdot)$ 满足：处处连续、可导、且存在反函数。则有：
$p_X(x)=p_Y(g(x)) \left|\frac{\partial g(x)}{\partial x}\right|\tag{8-1}$
或者等价地（其中 $g^{-1}(\cdot)$ 为反函数）：
$p_Y(y)=p_X(g^{-1}(y)) \left|\frac{\partial x}{\partial y}\right|\tag{8-2}$

如果扩展到高维空间，则有：
$p_X(\mathbf{\vec x})=p_Y(g(\mathbf{\vec x})) \left|\det\left(\frac{\partial g(\mathbf{\vec x})}{\partial \mathbf{\vec x}}\right)\right|\tag{8-3}$
并不是 $p_Y(y)=p_X(g^{-1}(y))$ ，这是因为 $g(\cdot)$ 引起了空间扭曲，从而导致 $\int p_X(g(x))dx \neq 1$ 。
根据 $p_Y(g(x))dy|=|p_X(x)dx|$ ，求解该方程，即得到上述解。

机器学习中不确定性有三个来源：

模型本身固有的随机性。如：量子力学中的粒子动力学方程。
不完全的观测。即使是确定性系统，当无法观测所有驱动变量时，结果也是随机的。
不完全建模。有时必须放弃一些观测信息。
如机器人建模中：虽然可以精确观察机器人周围每个对象的位置，但在预测这些对象将来的位置时，对空间进行了离散化。则位置预测将带有不确定性。