文章目录
常用概率分布
Bernoulli 分布
Bernoulli 分布(Bernoulli distribution
):单个二值随机变量的分布,右单个参数
ϕ
∈
[
0
,
1
]
\phi \in [0,1]
ϕ∈[0,1] 控制,
ϕ
\phi
ϕ 给出了随机变量等于1的概率。
性 质 : 性质: 性质:
P ( x = 1 ) = ϕ \color{Blue}{P(\rm{x}=1)=\phi} P(x=1)=ϕ
P ( x = 0 ) = 1 − ϕ \color{Blue}{P(\rm{x}=0)=1-\phi} P(x=0)=1−ϕ
P ( x = x ) = ϕ x ( 1 − ϕ ) 1 − x \color{Blue}{P(\rm{x}=\it{x})=\phi^{x}(1-\phi)^{1-x}} P(x=x)=ϕx(1−ϕ)1−x
E x [ x ] = ϕ \color{Blue}{\Bbb{E}_{\rm{x}}[\rm{x}]=\phi} Ex[x]=ϕ
Var x ( x ) = ϕ ( 1 − ϕ ) \color{Blue}{\operatorname{Var}_{\rm{x}}(\rm{x})=\phi(1-\phi)} Varx(x)=ϕ(1−ϕ)
Multinoulli 分布
Multinoulli 分布(Multinoulli distribution
)(或者范畴分布(categorical distribution
))是指具有
k
k
k 个不同状态的单个离散型随机变量上的分布,其中
k
k
k 是一个有限值。
该分布由向量
p
∈
[
0
,
1
]
k
−
1
\boldsymbol{p} \in [0,1]^{k-1}
p∈[0,1]k−1 参数化,其中每一个分量
p
i
p_i
pi 表示第
i
i
i 个状态的概率。
最后的第
k
k
k 个状态的概率可以通过
1
−
1
T
p
1-\boldsymbol{1}^{\sf{T}}\boldsymbol{p}
1−1Tp 给出,其中
1
T
p
≤
1
\boldsymbol{1}^{\sf{T}}\boldsymbol{p} \le 1
1Tp≤1
高斯分布
实数上最常用的分布:正态分布(normal distribution
),也称高斯分布(gaussian distribution
):
N
(
x
;
μ
,
σ
2
)
=
1
2
π
σ
2
exp
(
−
1
2
σ
2
(
x
−
μ
)
2
)
\mathcal{N}(x;\mu,\sigma^2)=\sqrt{\frac{1}{2\pi\sigma^2}}\exp(-\frac{1}{2\sigma^2}(x-\mu)^2)
N(x;μ,σ2)=2πσ21exp(−2σ21(x−μ)2)
正态分布由两个参数控制,
μ
∈
R
\mu \in \Bbb{R}
μ∈R 和
σ
∈
(
0
,
∞
)
\sigma \in (0,\infty)
σ∈(0,∞)
参数
μ
\mu
μ 给出了中心峰值的坐标,它也是分布的均值,即
E
[
x
]
=
μ
\Bbb{E}[\rm{x}] = \mu
E[x]=μ
参数
σ
\sigma
σ 给出了分布的标准差,方差用
σ
2
\sigma^2
σ2 表示
正态分布的概率密度函数,待插图
有时为了计算方便,使用参数
β
∈
(
0
,
∞
)
\beta \in (0,\infty)
β∈(0,∞) 来控制分布的精度:
N
(
x
;
μ
,
β
−
1
)
=
β
2
π
exp
(
−
1
2
β
(
x
−
μ
)
2
)
\mathcal{N}(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}\exp(-\frac{1}{2}\beta(x-\mu)^2)
N(x;μ,β−1)=2πβexp(−21β(x−μ)2)
多维正太分布(multivariate normal distribution
)即正态分布推广到
R
n
\Bbb{R}^n
Rn 空间的情况:
N
(
x
;
μ
,
Σ
)
=
1
(
2
π
)
n
det
(
Σ
)
exp
(
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
)
\mathcal{N}(\boldsymbol{x;\mu,\Sigma})= \sqrt{\frac{1}{(2\pi)^n \det{ (\boldsymbol{\Sigma}) }}} \exp \left( -\frac{1}{2}(\boldsymbol{x-\mu})^{\sf{T}} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x-\mu}) \right)
N(x;μ,Σ)=(2π)ndet(Σ)1exp(−21(x−μ)TΣ−1(x−μ))
参数
μ
\boldsymbol{\mu}
μ 仍表示分布均值,这里是一个向量值。
参数
Σ
\boldsymbol{\Sigma}
Σ 是一个正定对称矩阵,给出了分布的协方差矩阵。
同样为了计算高效(对概率密度函数求值时需要对
Σ
\boldsymbol{\Sigma}
Σ 求逆),
可以使用一个精度矩阵
β
\boldsymbol{\beta}
β ,公式变化为:
N ( x ; μ , β − 1 ) = det ( β ) ( 2 π ) n exp ( − 1 2 ( x − μ ) T β ( x − μ ) ) \mathcal{N}(\boldsymbol{x;\mu,\beta}^{-1})= \sqrt{\frac{\det{ (\boldsymbol{\beta}) }}{(2\pi)^n }} \exp \left( -\frac{1}{2}(\boldsymbol{x-\mu})^{\sf{T}} \boldsymbol{\beta}(\boldsymbol{x-\mu}) \right) N(x;μ,β−1)=(2π)ndet(β)exp(−21(x−μ)Tβ(x−μ))
通 常 把 协 方 差 矩 阵 固 定 成 一 个 对 角 阵 。 一 个 更 简 单 的 版 本 是 通常把协方差矩阵固定成一个对角阵。一个更简单的版本是 通常把协方差矩阵固定成一个对角阵。一个更简单的版本是各向同性(
isotropic
) 高 斯 分 布 , 高斯分布, 高斯分布,
它 的 协 方 差 矩 阵 是 一 个 标 量 乘 以 单 位 阵 。 它的协方差矩阵是一个标量乘以单位阵。 它的协方差矩阵是一个标量乘以单位阵。
指数分布和 Laplace 分布
指数分布(exponential distribution
):
p
(
x
;
λ
)
=
λ
1
x
≥
0
exp
(
−
λ
x
)
p(x;\lambda)=\lambda\boldsymbol{1}_{x\ge 0}\exp{(-\lambda x)}
p(x;λ)=λ1x≥0exp(−λx)
指数分布用指示函数(indicator function
)
1
x
≥
0
\boldsymbol{1}_{x\ge 0}
1x≥0 来使得当
x
x
x 取负值时的概率为0
在 深 度 学 习 中 , 经 常 需 要 一 个 在 x = 0 点 取 得 在深度学习中,经常需要一个在\ x=0\ 点取得 在深度学习中,经常需要一个在 x=0 点取得边界点(
sharp point
) 的 分 布 的分布 的分布
指 数 分 布 可 以 实 现 这 一 目 的 指数分布可以实现这一目的 指数分布可以实现这一目的
Laplace 分布(Laplace distribution
)和指示分布有紧密的联系,它允许在任意一点处设置概率质量的峰值:
Laplace
(
x
;
μ
,
γ
)
=
1
2
γ
exp
(
−
∣
x
−
μ
∣
γ
)
\operatorname{Laplace}(x;\mu,\gamma)=\frac{1}{2\gamma}\exp{(-\frac{|x-\mu|}{\gamma})}
Laplace(x;μ,γ)=2γ1exp(−γ∣x−μ∣)
Dirac 分布和经验分布
Dirac delta 函数(Dirac delta function
)
δ
(
x
)
\delta(x)
δ(x) 定义概率密度函数可以实现概率分布中的所有质量都集中在一个点上。
p
(
x
)
=
δ
(
x
−
μ
)
p(x)=\delta(x-\mu)
p(x)=δ(x−μ)
通过把
p
(
x
)
p(x)
p(x) 左移
−
μ
-\mu
−μ 个单位,得到在
x
−
μ
x-\mu
x−μ 处具有无限窄也无限高的峰值的概率质量。
Dirac delta 函数在除了0以外所有点的值都为0,但是积分为1.
Dirac delta 函数不像普通函数一样对
x
x
x 的每一个值都有一个实数值的输出,
它是一种不同类型的数学对象,被称为广义函数(generalized function
),
广义函数是依据积分性质定义的数学对象。
可以把 Dirac delta 函数想成一系列函数的极限点,这一系列函数把除0以外的所有点的概率密度越变越小
Dirac 分布经常作为经验分布(empirical distribution
)的一个组成部分出现:
p
^
(
x
)
=
1
m
∑
i
=
1
m
δ
(
x
−
x
(
i
)
)
\hat{p}(\boldsymbol{x})=\frac{1}{m}\sum_{i=1}^m\delta(\boldsymbol{x}-\boldsymbol{x}^{(i)})
p^(x)=m1i=1∑mδ(x−x(i))
经验分布将概率密度
1
m
\frac{1}{m}
m1 赋给
m
m
m 个点
x
(
1
)
,
⋯
 
,
x
(
m
)
\boldsymbol{x}^{(1)},\cdots,\boldsymbol{x}^{(m)}
x(1),⋯,x(m) 中的一个,这些点是给定的数据集或者采样的集合。
只有在定义连续型随机变量的经验分布时,Dirac delta 函数才是必要的。
对于离散型随机变量,情况更加简单:经验分布可以被定义成一个 Multinoulli 分布,对每一个可能的输入,其概率可以简单的设为在训练集上那个输入值的经验频率(empirical frequency
)
分布的混合
通过组合一些简单的概率分布来定义新的概率分布也是很常见的
- 混合分布(
mixture distribution
)
由一些组件(componet
)分布构成。每次实验,样本是由那个组件产生的取决于从一个 Multinoulli 分布中采样的结果:
P ( x ) = ∑ i P ( c = i ) P ( x ∣ c = i ) P({\rm{x}})=\sum_iP(c=i)P({\rm{x}}|c=i) P(x)=i∑P(c=i)P(x∣c=i)
这里 P ( c ) P(c) P(c) 是对各组件的一个 Multinoulli 分布
混合模型是组合简单概率分布来生成更丰富的分布的一种简单策略
- 高斯混合模型(
Gaussian Mixture Model
)
它的组件 p ( x ∣ c = i ) p({\rm{x}}|c=i) p(x∣c=i) 是高斯分布。每个组件有各自的参数,均值 μ ( i ) \boldsymbol{\mu}^{(i)} μ(i) 和协方差矩阵 Σ ( i ) \boldsymbol{\Sigma}^{(i)} Σ(i)
除了均值和方差以外,高斯混合模型的参数指明了给每个组件 i i i 的先验概率(prior probability
) α i = P ( c = i ) \alpha_i=P(c=i) αi=P(c=i)
作为对比, P ( c ∣ x ) P(c|{\boldsymbol{x}}) P(c∣x) 是后验概率(posterior probability
)
高斯混合模型是概率密度的万能近似器(
universal approximator
),任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度逼近
常用函数的有用性质
logistic sigmoid 函数:
σ ( x ) = 1 1 + exp ( − x ) \sigma(x)=\frac{1}{1+\exp(-x)} σ(x)=1+exp(−x)1
图 1 图1 图1
此函数通常用来产生 Bernoulli 分布中的参数
ϕ
\phi
ϕ,因为它的范围是
(
0
,
1
)
(0,1)
(0,1),处在
ϕ
\phi
ϕ 的有效值范围内。
图1给出了sigmoid函数的图示。sigmoid 函数在变量取绝对值非常大的正值或负值时会出现饱和()现象,
意味着函数会变得很平,并且对输入的微小改变会变的不敏感。
下面记录绘制sigmoid图像的python代码
from pylab import *
#解决绘图中不能显示中文的问题
mpl.rcParams['font.sans-serif'] = ['SimHei']
figure(figsize=(8,6), dpi=80)
X = arange(-10,10,0.1)
Y = 1/(1 + exp(-X))
subplot(1,1,1)
plot(X,Y,color="blue", linewidth=1.0, linestyle="-")
axis([-10,10,0,1])
xmin ,xmax = X.min(), X.max()
ymin, ymax = Y.min(), Y.max()
dx = (xmax - xmin) * 0.05
dy = (ymax - ymin) * 0.05
xlim(xmin - dx, xmax + dx)
ylim(ymin - dy, ymax + dy)
plt.xlabel('logistic sigmoid 函数')
plt.ylabel(r'$\sigma (x)$')#这里使用Latex公式
# 在show之前保存图片,否则保存的是新建的空白图片
savefig("sigmoid.png")
# 在屏幕上显示
show()
softplus 函数:
ζ ( x ) = log ( 1 + exp ( x ) ) \zeta(x)=\log(1+\exp(x)) ζ(x)=log(1+exp(x))
softplus 函数可以用了产生正态分布的 β \beta β 和 σ \sigma σ 参数,因为它的范围是 ( 0 , ∞ ) (0,\infty) (0,∞)
softplus 函数名来源于它是另外一个函数的平滑(”或软化“)形式,这个函数是:
x
+
=
max
(
0
,
x
)
.
x^+=\max(0,x).
x+=max(0,x).
图
2
图2
图2
from pylab import *
import numpy as np
#解决绘图中不能显示中文的问题
mpl.rcParams['font.sans-serif'] = ['SimHei']
figure(figsize=(8,6), dpi=80)
X = arange(-10,10,0.1)
Y = np.log(1 + np.exp(X))
subplot(1,1,1)
plot(X,Y,color="blue", linewidth=1.0, linestyle="-")
axis([-10,10,0,10])
xlim(X.min()-0.02,X.max())
ylim(Y.min()-0.05,Y.max()+(Y.max()-Y.min())*0.05)
plt.xlabel('softplus 函数')
plt.ylabel(r'$\zeta (x)$')#这里使用Latex公式
# 在show之前保存图片,否则保存的是新建的空白图片
savefig("softplus.png")
# 在屏幕上显示
show()
有用的性质,需记忆
(1)
σ
(
x
)
=
exp
(
x
)
exp
(
x
)
+
exp
(
0
)
\sigma(x)=\frac{\exp(x)}{\exp(x)+\exp(0)}\tag{1}
σ(x)=exp(x)+exp(0)exp(x)(1)
(2)
d
d
x
σ
(
x
)
=
σ
(
x
)
(
1
−
σ
(
x
)
)
\frac{d}{dx}\sigma(x)=\sigma(x)(1-\sigma(x))\tag{2}
dxdσ(x)=σ(x)(1−σ(x))(2)
(3)
1
−
σ
(
x
)
=
σ
(
−
x
)
1-\sigma(x)=\sigma(-x)\tag{3}
1−σ(x)=σ(−x)(3)
(4)
log
σ
(
x
)
=
−
ζ
(
−
x
)
\log\sigma(x)=-\zeta(-x)\tag{4}
logσ(x)=−ζ(−x)(4)
(5)
d
d
x
ζ
(
x
)
=
σ
(
x
)
\frac{d}{dx}\zeta(x)=\sigma(x)\tag{5}
dxdζ(x)=σ(x)(5)
(6)
∀
x
∈
(
0
,
1
)
,
σ
−
1
(
x
)
=
log
(
x
1
−
x
)
\forall x\in(0,1),\sigma^{-1}(x)=\log\left(\frac{x}{1-x}\right)\tag{6}
∀x∈(0,1),σ−1(x)=log(1−xx)(6)
(7)
∀
x
>
0
,
ζ
−
1
(
x
)
=
log
(
exp
(
x
)
−
1
)
\forall x\gt 0,\zeta^{-1}(x)=\log(\exp(x)-1)\tag{7}
∀x>0,ζ−1(x)=log(exp(x)−1)(7)
(8)
ζ
(
x
)
=
∫
−
i
n
f
t
y
x
σ
(
y
)
d
y
\zeta(x)=\int_{-infty}^x\sigma(y)dy\tag{8}
ζ(x)=∫−inftyxσ(y)dy(8)
(9)
ζ
(
x
)
−
ζ
(
−
x
)
=
x
\zeta(x)-\zeta(-x)=x\tag{9}
ζ(x)−ζ(−x)=x(9)
函 数   σ − 1 ( x )   在 统 计 学 中 被 称 为 函数\, \sigma^{-1}(x) \,在统计学中被称为 函数σ−1(x)在统计学中被称为分对数(
logit
)
softplus 函数被设计成正部函数(positive part function
)(此处指
x
+
=
max
{
0
,
x
}
x^+=\max\{0,x\}
x+=max{0,x})的平滑版本