深度学习数学基础--概率与信息论(2)

常用概率分布

Bernoulli 分布

Bernoulli 分布Bernoulli distribution):单个二值随机变量的分布,右单个参数 ϕ ∈ [ 0 , 1 ] \phi \in [0,1] ϕ[0,1] 控制, ϕ \phi ϕ 给出了随机变量等于1的概率。

性 质 : 性质:
P ( x = 1 ) = ϕ \color{Blue}{P(\rm{x}=1)=\phi} P(x=1)=ϕ
P ( x = 0 ) = 1 − ϕ \color{Blue}{P(\rm{x}=0)=1-\phi} P(x=0)=1ϕ
P ( x = x ) = ϕ x ( 1 − ϕ ) 1 − x \color{Blue}{P(\rm{x}=\it{x})=\phi^{x}(1-\phi)^{1-x}} P(x=x)=ϕx(1ϕ)1x
E x [ x ] = ϕ \color{Blue}{\Bbb{E}_{\rm{x}}[\rm{x}]=\phi} Ex[x]=ϕ
Var ⁡ x ( x ) = ϕ ( 1 − ϕ ) \color{Blue}{\operatorname{Var}_{\rm{x}}(\rm{x})=\phi(1-\phi)} Varx(x)=ϕ(1ϕ)

Multinoulli 分布

Multinoulli 分布Multinoulli distribution)(或者范畴分布(categorical distribution))是指具有 k k k 个不同状态的单个离散型随机变量上的分布,其中 k k k 是一个有限值。

该分布由向量 p ∈ [ 0 , 1 ] k − 1 \boldsymbol{p} \in [0,1]^{k-1} p[0,1]k1 参数化,其中每一个分量 p i p_i pi 表示第 i i i 个状态的概率。
最后的第 k k k 个状态的概率可以通过 1 − 1 T p 1-\boldsymbol{1}^{\sf{T}}\boldsymbol{p} 11Tp 给出,其中 1 T p ≤ 1 \boldsymbol{1}^{\sf{T}}\boldsymbol{p} \le 1 1Tp1

高斯分布

实数上最常用的分布:正态分布normal distribution),也称高斯分布gaussian distribution):
N ( x ; μ , σ 2 ) = 1 2 π σ 2 exp ⁡ ( − 1 2 σ 2 ( x − μ ) 2 ) \mathcal{N}(x;\mu,\sigma^2)=\sqrt{\frac{1}{2\pi\sigma^2}}\exp(-\frac{1}{2\sigma^2}(x-\mu)^2) N(x;μ,σ2)=2πσ21 exp(2σ21(xμ)2)
正态分布由两个参数控制, μ ∈ R \mu \in \Bbb{R} μR σ ∈ ( 0 , ∞ ) \sigma \in (0,\infty) σ(0,)
参数 μ \mu μ 给出了中心峰值的坐标,它也是分布的均值,即 E [ x ] = μ \Bbb{E}[\rm{x}] = \mu E[x]=μ
参数 σ \sigma σ 给出了分布的标准差,方差用 σ 2 \sigma^2 σ2 表示

正态分布的概率密度函数,待插图

有时为了计算方便,使用参数 β ∈ ( 0 , ∞ ) \beta \in (0,\infty) β(0,) 来控制分布的精度:
N ( x ; μ , β − 1 ) = β 2 π exp ⁡ ( − 1 2 β ( x − μ ) 2 ) \mathcal{N}(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}\exp(-\frac{1}{2}\beta(x-\mu)^2) N(x;μ,β1)=2πβ exp(21β(xμ)2)

多维正太分布multivariate normal distribution)即正态分布推广到 R n \Bbb{R}^n Rn 空间的情况:
N ( x ; μ , Σ ) = 1 ( 2 π ) n det ⁡ ( Σ ) exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) \mathcal{N}(\boldsymbol{x;\mu,\Sigma})= \sqrt{\frac{1}{(2\pi)^n \det{ (\boldsymbol{\Sigma}) }}} \exp \left( -\frac{1}{2}(\boldsymbol{x-\mu})^{\sf{T}} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x-\mu}) \right) N(x;μ,Σ)=(2π)ndet(Σ)1 exp(21(xμ)TΣ1(xμ))
参数 μ \boldsymbol{\mu} μ 仍表示分布均值,这里是一个向量值。
参数 Σ \boldsymbol{\Sigma} Σ 是一个正定对称矩阵,给出了分布的协方差矩阵。

同样为了计算高效(对概率密度函数求值时需要对 Σ \boldsymbol{\Sigma} Σ 求逆),
可以使用一个精度矩阵 β \boldsymbol{\beta} β ,公式变化为:

N ( x ; μ , β − 1 ) = det ⁡ ( β ) ( 2 π ) n exp ⁡ ( − 1 2 ( x − μ ) T β ( x − μ ) ) \mathcal{N}(\boldsymbol{x;\mu,\beta}^{-1})= \sqrt{\frac{\det{ (\boldsymbol{\beta}) }}{(2\pi)^n }} \exp \left( -\frac{1}{2}(\boldsymbol{x-\mu})^{\sf{T}} \boldsymbol{\beta}(\boldsymbol{x-\mu}) \right) N(x;μ,β1)=(2π)ndet(β) exp(21(xμ)Tβ(xμ))

通 常 把 协 方 差 矩 阵 固 定 成 一 个 对 角 阵 。 一 个 更 简 单 的 版 本 是 通常把协方差矩阵固定成一个对角阵。一个更简单的版本是 各向同性isotropic 高 斯 分 布 , 高斯分布,
它 的 协 方 差 矩 阵 是 一 个 标 量 乘 以 单 位 阵 。 它的协方差矩阵是一个标量乘以单位阵。

指数分布和 Laplace 分布

指数分布exponential distribution):
p ( x ; λ ) = λ 1 x ≥ 0 exp ⁡ ( − λ x ) p(x;\lambda)=\lambda\boldsymbol{1}_{x\ge 0}\exp{(-\lambda x)} p(x;λ)=λ1x0exp(λx)
指数分布用指示函数(indicator function) 1 x ≥ 0 \boldsymbol{1}_{x\ge 0} 1x0 来使得当 x x x 取负值时的概率为0

在 深 度 学 习 中 , 经 常 需 要 一 个 在   x = 0   点 取 得 在深度学习中,经常需要一个在\ x=0\ 点取得  x=0 边界点sharp point 的 分 布 的分布
指 数 分 布 可 以 实 现 这 一 目 的 指数分布可以实现这一目的

Laplace 分布Laplace distribution)和指示分布有紧密的联系,它允许在任意一点处设置概率质量的峰值:
Laplace ⁡ ( x ; μ , γ ) = 1 2 γ exp ⁡ ( − ∣ x − μ ∣ γ ) \operatorname{Laplace}(x;\mu,\gamma)=\frac{1}{2\gamma}\exp{(-\frac{|x-\mu|}{\gamma})} Laplace(x;μ,γ)=2γ1exp(γxμ)

Dirac 分布和经验分布

Dirac delta 函数Dirac delta function δ ( x ) \delta(x) δ(x) 定义概率密度函数可以实现概率分布中的所有质量都集中在一个点上。
p ( x ) = δ ( x − μ ) p(x)=\delta(x-\mu) p(x)=δ(xμ)
通过把 p ( x ) p(x) p(x) 左移 − μ -\mu μ 个单位,得到在 x − μ x-\mu xμ 处具有无限窄也无限高的峰值的概率质量。

Dirac delta 函数在除了0以外所有点的值都为0,但是积分为1.
Dirac delta 函数不像普通函数一样对 x x x 的每一个值都有一个实数值的输出,
它是一种不同类型的数学对象,被称为广义函数generalized function),
广义函数是依据积分性质定义的数学对象。

可以把 Dirac delta 函数想成一系列函数的极限点,这一系列函数把除0以外的所有点的概率密度越变越小

Dirac 分布经常作为经验分布empirical distribution)的一个组成部分出现:
p ^ ( x ) = 1 m ∑ i = 1 m δ ( x − x ( i ) ) \hat{p}(\boldsymbol{x})=\frac{1}{m}\sum_{i=1}^m\delta(\boldsymbol{x}-\boldsymbol{x}^{(i)}) p^(x)=m1i=1mδ(xx(i))
经验分布将概率密度 1 m \frac{1}{m} m1 赋给 m m m 个点 x ( 1 ) , ⋯   , x ( m ) \boldsymbol{x}^{(1)},\cdots,\boldsymbol{x}^{(m)} x(1),,x(m) 中的一个,这些点是给定的数据集或者采样的集合。

只有在定义连续型随机变量的经验分布时,Dirac delta 函数才是必要的。
对于离散型随机变量,情况更加简单:经验分布可以被定义成一个 Multinoulli 分布,对每一个可能的输入,其概率可以简单的设为在训练集上那个输入值的经验频率empirical frequency

分布的混合

通过组合一些简单的概率分布来定义新的概率分布也是很常见的

  1. 混合分布(mixture distribution)
    由一些组件(componet)分布构成。每次实验,样本是由那个组件产生的取决于从一个 Multinoulli 分布中采样的结果:
    P ( x ) = ∑ i P ( c = i ) P ( x ∣ c = i ) P({\rm{x}})=\sum_iP(c=i)P({\rm{x}}|c=i) P(x)=iP(c=i)P(xc=i)
    这里 P ( c ) P(c) P(c) 是对各组件的一个 Multinoulli 分布

混合模型是组合简单概率分布来生成更丰富的分布的一种简单策略

  1. 高斯混合模型Gaussian Mixture Model
    它的组件 p ( x ∣ c = i ) p({\rm{x}}|c=i) p(xc=i) 是高斯分布。每个组件有各自的参数,均值 μ ( i ) \boldsymbol{\mu}^{(i)} μ(i) 和协方差矩阵 Σ ( i ) \boldsymbol{\Sigma}^{(i)} Σ(i)
    除了均值和方差以外,高斯混合模型的参数指明了给每个组件 i i i先验概率prior probability α i = P ( c = i ) \alpha_i=P(c=i) αi=P(c=i)
    作为对比, P ( c ∣ x ) P(c|{\boldsymbol{x}}) P(cx)后验概率posterior probability

高斯混合模型是概率密度的万能近似器universal approximator),任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度逼近

常用函数的有用性质

logistic sigmoid 函数:

σ ( x ) = 1 1 + exp ⁡ ( − x ) \sigma(x)=\frac{1}{1+\exp(-x)} σ(x)=1+exp(x)1

sigmoid函数图像 图 1 图1 1

此函数通常用来产生 Bernoulli 分布中的参数 ϕ \phi ϕ,因为它的范围是 ( 0 , 1 ) (0,1) (0,1),处在 ϕ \phi ϕ 的有效值范围内。
图1给出了sigmoid函数的图示。sigmoid 函数在变量取绝对值非常大的正值或负值时会出现饱和()现象,
意味着函数会变得很平,并且对输入的微小改变会变的不敏感。

下面记录绘制sigmoid图像的python代码

from pylab import *
#解决绘图中不能显示中文的问题
mpl.rcParams['font.sans-serif'] = ['SimHei']
figure(figsize=(8,6), dpi=80)

X = arange(-10,10,0.1)
Y = 1/(1 + exp(-X))

subplot(1,1,1)
plot(X,Y,color="blue", linewidth=1.0, linestyle="-")

axis([-10,10,0,1])

xmin ,xmax = X.min(), X.max()
ymin, ymax = Y.min(), Y.max()

dx = (xmax - xmin) * 0.05
dy = (ymax - ymin) * 0.05

xlim(xmin - dx, xmax + dx)
ylim(ymin - dy, ymax + dy)

plt.xlabel('logistic sigmoid 函数')
plt.ylabel(r'$\sigma (x)$')#这里使用Latex公式
# 在show之前保存图片,否则保存的是新建的空白图片
savefig("sigmoid.png")
# 在屏幕上显示
show()

softplus 函数:

ζ ( x ) = log ⁡ ( 1 + exp ⁡ ( x ) ) \zeta(x)=\log(1+\exp(x)) ζ(x)=log(1+exp(x))

softplus 函数可以用了产生正态分布的 β \beta β σ \sigma σ 参数,因为它的范围是 ( 0 , ∞ ) (0,\infty) (0,)

softplus 函数名来源于它是另外一个函数的平滑(”或软化“)形式,这个函数是:
x + = max ⁡ ( 0 , x ) . x^+=\max(0,x). x+=max(0,x).
softplus函数图像
图 2 图2 2

from pylab import *
import numpy as np 

#解决绘图中不能显示中文的问题
mpl.rcParams['font.sans-serif'] = ['SimHei']
figure(figsize=(8,6), dpi=80)

X = arange(-10,10,0.1)
Y = np.log(1 + np.exp(X))

subplot(1,1,1)
plot(X,Y,color="blue", linewidth=1.0, linestyle="-")

axis([-10,10,0,10])

xlim(X.min()-0.02,X.max())
ylim(Y.min()-0.05,Y.max()+(Y.max()-Y.min())*0.05)

plt.xlabel('softplus 函数')
plt.ylabel(r'$\zeta (x)$')#这里使用Latex公式
# 在show之前保存图片,否则保存的是新建的空白图片
savefig("softplus.png")
# 在屏幕上显示
show()

有用的性质,需记忆

(1) σ ( x ) = exp ⁡ ( x ) exp ⁡ ( x ) + exp ⁡ ( 0 ) \sigma(x)=\frac{\exp(x)}{\exp(x)+\exp(0)}\tag{1} σ(x)=exp(x)+exp(0)exp(x)(1)
(2) d d x σ ( x ) = σ ( x ) ( 1 − σ ( x ) ) \frac{d}{dx}\sigma(x)=\sigma(x)(1-\sigma(x))\tag{2} dxdσ(x)=σ(x)(1σ(x))(2)
(3) 1 − σ ( x ) = σ ( − x ) 1-\sigma(x)=\sigma(-x)\tag{3} 1σ(x)=σ(x)(3)
(4) log ⁡ σ ( x ) = − ζ ( − x ) \log\sigma(x)=-\zeta(-x)\tag{4} logσ(x)=ζ(x)(4)
(5) d d x ζ ( x ) = σ ( x ) \frac{d}{dx}\zeta(x)=\sigma(x)\tag{5} dxdζ(x)=σ(x)(5)
(6) ∀ x ∈ ( 0 , 1 ) , σ − 1 ( x ) = log ⁡ ( x 1 − x ) \forall x\in(0,1),\sigma^{-1}(x)=\log\left(\frac{x}{1-x}\right)\tag{6} x(0,1),σ1(x)=log(1xx)(6)
(7) ∀ x > 0 , ζ − 1 ( x ) = log ⁡ ( exp ⁡ ( x ) − 1 ) \forall x\gt 0,\zeta^{-1}(x)=\log(\exp(x)-1)\tag{7} x>0,ζ1(x)=log(exp(x)1)(7)
(8) ζ ( x ) = ∫ − i n f t y x σ ( y ) d y \zeta(x)=\int_{-infty}^x\sigma(y)dy\tag{8} ζ(x)=inftyxσ(y)dy(8)
(9) ζ ( x ) − ζ ( − x ) = x \zeta(x)-\zeta(-x)=x\tag{9} ζ(x)ζ(x)=x(9)

函 数   σ − 1 ( x )   在 统 计 学 中 被 称 为 函数\, \sigma^{-1}(x) \,在统计学中被称为 σ1(x)分对数logit

softplus 函数被设计成正部函数(positive part function)(此处指 x + = max ⁡ { 0 , x } x^+=\max\{0,x\} x+=max{0,x})的平滑版本

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值