储备知识
多维高斯公式的表达和推导
一维正态分布都为大家所熟知:
N
(
x
;
μ
,
σ
2
)
=
1
2
π
σ
2
e
x
p
(
−
(
x
−
μ
)
2
2
σ
2
)
N(x;\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}exp(-\frac{(x-\mu)^2}{2\sigma^2})
N(x;μ,σ2)=2πσ21exp(−2σ2(x−μ)2)
对于多维高斯分布,
x
⃗
=
(
x
1
,
x
2
,
.
.
.
,
x
n
)
\vec x = (x_1,x_2,...,x_n)
x=(x1,x2,...,xn)各个随机变量相互独立,可以表示为
f
(
x
1
,
x
2
,
.
.
,
x
n
)
=
f
(
x
1
)
f
(
x
2
)
.
.
.
f
(
x
n
)
f(x_1,x_2,..,x_n) = f(x_1)f(x_2)...f(x_n)
f(x1,x2,..,xn)=f(x1)f(x2)...f(xn)
f
(
x
⃗
)
=
1
2
π
σ
1
2
e
x
p
(
−
(
x
−
μ
1
)
2
2
σ
1
2
)
∗
1
2
π
σ
2
2
e
x
p
(
−
(
x
−
μ
2
)
2
2
σ
2
2
)
∗
.
.
.
∗
1
2
π
σ
n
2
e
x
p
(
−
(
x
−
μ
n
)
2
2
σ
n
2
)
=
1
(
2
π
)
n
Π
i
=
1
i
=
n
σ
i
2
e
x
p
(
∑
i
=
1
i
=
n
−
(
x
i
−
μ
i
)
2
2
σ
i
2
)
(
1
)
f(\vec x) = \frac{1}{\sqrt{2\pi\sigma_1^2}}exp(-\frac{(x-\mu_1)^2}{2\sigma_1^2})*\frac{1}{\sqrt{2\pi\sigma_2^2}}exp(-\frac{(x-\mu_2)^2}{2\sigma_2^2})*...*\frac{1}{\sqrt{2\pi\sigma_n^2}}exp(-\frac{(x-\mu_n)^2}{2\sigma_n^2}) = \frac{1}{\sqrt{(2\pi)^n\Pi_{i=1}^{i=n}\sigma_i^2}}exp(\sum_{i=1}^{i=n}-\frac{(x_i-\mu_i)^2}{2\sigma_i^2}) \qquad (1)
f(x)=2πσ121exp(−2σ12(x−μ1)2)∗2πσ221exp(−2σ22(x−μ2)2)∗...∗2πσn21exp(−2σn2(x−μn)2)=(2π)nΠi=1i=nσi21exp(∑i=1i=n−2σi2(xi−μi)2)(1)
当然,深度学习这本书中给出的公式如下:
N
(
x
;
μ
,
Σ
)
=
1
(
2
π
)
2
d
e
t
(
Σ
)
e
x
p
⟮
(
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
⟯
(
2
)
N(x;\mu,\Sigma) = \sqrt\frac{1}{(2\pi)^2det(\Sigma)}exp\lgroup(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\rgroup \qquad (2)
N(x;μ,Σ)=(2π)2det(Σ)1exp⟮(−21(x−μ)TΣ−1(x−μ)⟯(2)
其中
Σ
\Sigma
Σ和
det
(
Σ
)
\det(\Sigma)
det(Σ)分别表示的是
x
⃗
\vec x
x的协方差矩阵和协方差矩阵的行列式。对于相互独立的变量来说,任意两个变量的
c
o
v
(
x
i
,
x
j
)
=
0
cov(x_i,x_j) = 0
cov(xi,xj)=0,其中
i
≠
j
i \ne j
i=j。
Σ
=
[
σ
11
2
0
⋯
0
0
σ
22
2
⋯
0
⋮
⋮
⋱
⋮
0
0
⋯
σ
n
n
2
]
\Sigma = \begin{bmatrix} \sigma_{11}^2 & 0 & \cdots & 0 \\ 0 & \sigma_{22}^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots\ &\sigma_{nn}^2 \\ \end{bmatrix}
Σ=⎣⎢⎢⎢⎡σ1120⋮00σ222⋮0⋯⋯⋱⋯ 00⋮σnn2⎦⎥⎥⎥⎤
所以方程式1和方程式2是等价的,前者用元素表达,后者用矩阵表达。
信息论之KL散度来源
信息论的一个基本想法是一个不太可能的事件居然发生了,要比一个非常可能的事件发生,能提供更多的信息[1]。
首先定义一个事件
X
=
x
X=x
X=x的自信息(self-information)
I
(
x
)
=
−
log
P
(
x
)
I(x) = -\log P(x)
I(x)=−logP(x)
其中I(x)的单位为奈特(net),以e为底。一奈特表示以
1
e
\frac{1}{e}
e1的概率观测到一个事件的信息量。以2为底成为比特(bit),或者香农(shannons)。
我们可以用香农熵来对整个概率分布中的不确定性总量进行量化:
H
(
x
)
=
−
E
x
∼
P
[
log
P
(
x
)
]
H(x) = -E_{x\sim P}[\log P(x)]
H(x)=−Ex∼P[logP(x)]
Jensen不等式
待续
The evidence lower bound
待续
[1] 深度学习