深度学习数学基础--概率与信息论（2）

最新推荐文章于 2022-10-04 16:45:13 发布

夕兮曦兮

最新推荐文章于 2022-10-04 16:45:13 发布

阅读量512

点赞数

分类专栏：深度学习花书学习笔记数学花书学习笔记文章标签：花书常用概率分布

本文链接：https://blog.csdn.net/xxliu_csdn/article/details/87698664

版权

花书学习笔记同时被 3 个专栏收录

8 篇文章 1 订阅

订阅专栏

花书学习笔记

8 篇文章 0 订阅

订阅专栏

深度学习

6 篇文章 1 订阅

订阅专栏

文章目录

常用概率分布
常用函数的有用性质

常用概率分布

Bernoulli 分布

Bernoulli 分布（Bernoulli distribution）：单个二值随机变量的分布，右单个参数 $\phi \in [0,1]$ 控制， $\phi$ 给出了随机变量等于1的概率。

$性质：$
$\color{Blue}{P(\rm{x}=1)=\phi}$
$\color{Blue}{P(\rm{x}=0)=1-\phi}$
$\color{Blue}{P(\rm{x}=\it{x})=\phi^{x}(1-\phi)^{1-x}}$
$\color{Blue}{\Bbb{E}_{\rm{x}}[\rm{x}]=\phi}$
$\color{Blue}{\operatorname{Var}_{\rm{x}}(\rm{x})=\phi(1-\phi)}$

Multinoulli 分布

Multinoulli 分布（Multinoulli distribution）（或者范畴分布(categorical distribution)）是指具有 $k$ 个不同状态的单个离散型随机变量上的分布，其中 $k$ 是一个有限值。

该分布由向量 $\boldsymbol{p} \in [0,1]^{k-1}$ 参数化，其中每一个分量 $p_i$ 表示第 $i$ 个状态的概率。
最后的第 $k$ 个状态的概率可以通过 $1-\boldsymbol{1}^{\sf{T}}\boldsymbol{p}$ 给出，其中 $\boldsymbol{1}^{\sf{T}}\boldsymbol{p} \le 1$

高斯分布

实数上最常用的分布：正态分布（normal distribution），也称高斯分布（gaussian distribution）:
$\mathcal{N}(x;\mu,\sigma^2)=\sqrt{\frac{1}{2\pi\sigma^2}}\exp(-\frac{1}{2\sigma^2}(x-\mu)^2)$
正态分布由两个参数控制， $\mu \in \Bbb{R}$ 和 $\sigma \in (0,\infty)$
参数 $\mu$ 给出了中心峰值的坐标，它也是分布的均值，即 $\Bbb{E}[\rm{x}] = \mu$
参数 $\sigma$ 给出了分布的标准差，方差用 $\sigma^2$ 表示

正态分布的概率密度函数，待插图

有时为了计算方便，使用参数 $\beta \in (0,\infty)$ 来控制分布的精度：
$\mathcal{N}(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}\exp(-\frac{1}{2}\beta(x-\mu)^2)$

多维正太分布（multivariate normal distribution）即正态分布推广到 $\Bbb{R}^n$ 空间的情况：
$\mathcal{N}(\boldsymbol{x;\mu,\Sigma})= \sqrt{\frac{1}{(2\pi)^n \det{ (\boldsymbol{\Sigma}) }}} \exp \left( -\frac{1}{2}(\boldsymbol{x-\mu})^{\sf{T}} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x-\mu}) \right)$
参数 $\boldsymbol{\mu}$ 仍表示分布均值，这里是一个向量值。
参数 $\boldsymbol{\Sigma}$ 是一个正定对称矩阵，给出了分布的协方差矩阵。

同样为了计算高效（对概率密度函数求值时需要对 $\boldsymbol{\Sigma}$ 求逆），
可以使用一个精度矩阵 $\boldsymbol{\beta}$ ，公式变化为：

$\mathcal{N}(\boldsymbol{x;\mu,\beta}^{-1})= \sqrt{\frac{\det{ (\boldsymbol{\beta}) }}{(2\pi)^n }} \exp \left( -\frac{1}{2}(\boldsymbol{x-\mu})^{\sf{T}} \boldsymbol{\beta}(\boldsymbol{x-\mu}) \right)$

$通常把协方差矩阵固定成一个对角阵。一个更简单的版本是$ 各向同性（isotropic） $高斯分布，$
$它的协方差矩阵是一个标量乘以单位阵。$

指数分布和 Laplace 分布

指数分布（exponential distribution）：
$p(x;\lambda)=\lambda\boldsymbol{1}_{x\ge 0}\exp{(-\lambda x)}$
指数分布用指示函数(indicator function) $\boldsymbol{1}_{x\ge 0}$ 来使得当 $x$ 取负值时的概率为0

$在深度学习中，经常需要一个在\ x=0\ 点取得$ 边界点（sharp point） $的分布$
$指数分布可以实现这一目的$

Laplace 分布（Laplace distribution）和指示分布有紧密的联系，它允许在任意一点处设置概率质量的峰值：
$\operatorname{Laplace}(x;\mu,\gamma)=\frac{1}{2\gamma}\exp{(-\frac{|x-\mu|}{\gamma})}$

Dirac 分布和经验分布

Dirac delta 函数（Dirac delta function） $\delta(x)$ 定义概率密度函数可以实现概率分布中的所有质量都集中在一个点上。
$p(x)=\delta(x-\mu)$
通过把 $p (x)$ 左移 $-\mu$ 个单位，得到在 $x-\mu$ 处具有无限窄也无限高的峰值的概率质量。

Dirac delta 函数在除了0以外所有点的值都为0，但是积分为1.
Dirac delta 函数不像普通函数一样对 $x$ 的每一个值都有一个实数值的输出，
它是一种不同类型的数学对象，被称为广义函数（generalized function），
广义函数是依据积分性质定义的数学对象。

可以把 Dirac delta 函数想成一系列函数的极限点，这一系列函数把除0以外的所有点的概率密度越变越小

Dirac 分布经常作为经验分布（empirical distribution）的一个组成部分出现：
$\hat{p}(\boldsymbol{x})=\frac{1}{m}\sum_{i=1}^m\delta(\boldsymbol{x}-\boldsymbol{x}^{(i)})$
经验分布将概率密度 $\frac{1}{m}$ 赋给 $m$ 个点 $\boldsymbol{x}^{(1)},\cdots,\boldsymbol{x}^{(m)}$ 中的一个，这些点是给定的数据集或者采样的集合。

只有在定义连续型随机变量的经验分布时，Dirac delta 函数才是必要的。
对于离散型随机变量，情况更加简单：经验分布可以被定义成一个 Multinoulli 分布，对每一个可能的输入，其概率可以简单的设为在训练集上那个输入值的经验频率（empirical frequency）

分布的混合

通过组合一些简单的概率分布来定义新的概率分布也是很常见的

混合分布(mixture distribution)
由一些组件（componet）分布构成。每次实验，样本是由那个组件产生的取决于从一个 Multinoulli 分布中采样的结果：
$P({\rm{x}})=\sum_iP(c=i)P({\rm{x}}|c=i)$
这里 $P (c)$ 是对各组件的一个 Multinoulli 分布

混合模型是组合简单概率分布来生成更丰富的分布的一种简单策略

高斯混合模型（Gaussian Mixture Model）
它的组件 $p({\rm{x}}|c=i)$ 是高斯分布。每个组件有各自的参数，均值 $\boldsymbol{\mu}^{(i)}$ 和协方差矩阵 $\boldsymbol{\Sigma}^{(i)}$
除了均值和方差以外，高斯混合模型的参数指明了给每个组件 $i$ 的先验概率（prior probability） $\alpha_i=P(c=i)$
作为对比， $P(c|{\boldsymbol{x}})$ 是后验概率（posterior probability）

高斯混合模型是概率密度的万能近似器（universal approximator），任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度逼近

常用函数的有用性质

logistic sigmoid 函数：

$\sigma(x)=\frac{1}{1+\exp(-x)}$

sigmoid函数图像 $图 1$

此函数通常用来产生 Bernoulli 分布中的参数 $\phi$ ，因为它的范围是 $(0, 1)$ ，处在 $\phi$ 的有效值范围内。
图1给出了sigmoid函数的图示。sigmoid 函数在变量取绝对值非常大的正值或负值时会出现饱和（）现象，
意味着函数会变得很平，并且对输入的微小改变会变的不敏感。

下面记录绘制sigmoid图像的python代码

from pylab import *
#解决绘图中不能显示中文的问题
mpl.rcParams['font.sans-serif'] = ['SimHei']
figure(figsize=(8,6), dpi=80)

X = arange(-10,10,0.1)
Y = 1/(1 + exp(-X))

subplot(1,1,1)
plot(X,Y,color="blue", linewidth=1.0, linestyle="-")

axis([-10,10,0,1])

xmin ,xmax = X.min(), X.max()
ymin, ymax = Y.min(), Y.max()

dx = (xmax - xmin) * 0.05
dy = (ymax - ymin) * 0.05

xlim(xmin - dx, xmax + dx)
ylim(ymin - dy, ymax + dy)

plt.xlabel('logistic sigmoid 函数')
plt.ylabel(r'$\sigma (x)$')#这里使用Latex公式
# 在show之前保存图片，否则保存的是新建的空白图片
savefig("sigmoid.png")
# 在屏幕上显示
show()

softplus 函数：

$\zeta(x)=\log(1+\exp(x))$

softplus 函数可以用了产生正态分布的 $\beta$ 和 $\sigma$ 参数,因为它的范围是 $(0,\infty)$

softplus 函数名来源于它是另外一个函数的平滑（”或软化“）形式，这个函数是：
$x^+=\max(0,x).$
softplus函数图像
$图 2$

from pylab import *
import numpy as np 

#解决绘图中不能显示中文的问题
mpl.rcParams['font.sans-serif'] = ['SimHei']
figure(figsize=(8,6), dpi=80)

X = arange(-10,10,0.1)
Y = np.log(1 + np.exp(X))

subplot(1,1,1)
plot(X,Y,color="blue", linewidth=1.0, linestyle="-")

axis([-10,10,0,10])

xlim(X.min()-0.02,X.max())
ylim(Y.min()-0.05,Y.max()+(Y.max()-Y.min())*0.05)

plt.xlabel('softplus 函数')
plt.ylabel(r'$\zeta (x)$')#这里使用Latex公式
# 在show之前保存图片，否则保存的是新建的空白图片
savefig("softplus.png")
# 在屏幕上显示
show()

有用的性质，需记忆

$\sigma(x)=\frac{\exp(x)}{\exp(x)+\exp(0)}\tag{1}$
$\frac{d}{dx}\sigma(x)=\sigma(x)(1-\sigma(x))\tag{2}$
$1-\sigma(x)=\sigma(-x)\tag{3}$
$\log\sigma(x)=-\zeta(-x)\tag{4}$
$\frac{d}{dx}\zeta(x)=\sigma(x)\tag{5}$
$\forall x\in(0,1),\sigma^{-1}(x)=\log\left(\frac{x}{1-x}\right)\tag{6}$
$\forall x\gt 0,\zeta^{-1}(x)=\log(\exp(x)-1)\tag{7}$
$\zeta(x)=\int_{-infty}^x\sigma(y)dy\tag{8}$
$\zeta(x)-\zeta(-x)=x\tag{9}$

$函数\, \sigma^{-1}(x) \,在统计学中被称为$ 分对数（logit）

softplus 函数被设计成正部函数（positive part function）(此处指 $x^+=\max\{0,x\}$ )的平滑版本

夕兮曦兮

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度学习数学基础--概率与信息论（2）

文章目录常用概率分布Bernoulli 分布Multinoulli 分布高斯分布指数分布和 Laplace 分布Dirac 分布和经验分布分布的混合常用概率分布Bernoulli 分布Bernoulli 分布（Bernoulli distribution）：单个二值随机变量的分布，右单个参数 ϕ∈[0,1]\phi \in [0,1]ϕ∈[0,1] 控制， ϕ\phiϕ 给出了随机变量等于1...
复制链接

扫一扫