文章目录
1 基本概念
1)随机变量
x
x
x:表示一个不确定的值,例如抛硬币的结果,或者所测量的温度。在观察时,某些值出现的概率更高,这种信息由
x
x
x的概率分布
P
r
(
x
)
Pr (x)
Pr(x)决定。特别的,对于连续型随机变量,可通过概率密度函数 (PDF)来量化。
2)联合概率:假设两个随机变量
x
x
x和
y
y
y。若观察
x
x
x和
y
y
y的多个成对实例,结果显示某些组合出现更为频繁,即
x
x
x和
y
y
y的联合概率分布,记作
P
r
(
x
,
y
)
Pr (x, y)
Pr(x,y)。以此推广到多维:
P
r
(
x
)
Pr (\boldsymbol{x})
Pr(x),其中
x
=
[
x
1
,
x
2
,
⋯
,
x
k
]
T
\boldsymbol{x} = [x_1, x_2, \cdots, x_k]^{\rm T}
x=[x1,x2,⋯,xk]T。
3)边缘化:任何单变量的概率分布都可以通过在联合概率分布上求离散变量的和或者连续变量的积分 (边缘化) 得到。例如已知连续变量
x
x
x、离散变量
y
y
y以及
P
r
(
x
,
y
)
Pr (x, y)
Pr(x,y),则有:
P
r
(
x
)
=
∑
y
P
r
(
x
,
y
)
P
r
(
y
)
=
∫
P
r
(
x
,
y
)
d
x
Pr (x) = \sum_y Pr (x, y)\\ Pr (y) = \int Pr (x, y){\rm d}x
Pr(x)=y∑Pr(x,y)Pr(y)=∫Pr(x,y)dx 4)条件概率:给定
y
y
y的情况下
x
x
x的相对概率,记作
P
r
(
x
∣
y
)
Pr (x | y)
Pr(x∣y),其与联合概率的关系如下:
P
r
(
x
,
y
)
=
P
r
(
x
∣
y
)
P
r
(
y
)
=
P
r
(
y
∣
x
)
P
r
(
x
)
Pr (x, y) = Pr (x | y) Pr (y) = Pr (y | x) Pr (x)
Pr(x,y)=Pr(x∣y)Pr(y)=Pr(y∣x)Pr(x)当随机变量较多时,则可不断使用上述公式进行分解。
5)贝叶斯公式:基于条件概率,
P
r
(
x
∣
y
)
P
r
(
y
)
=
P
r
(
y
∣
x
)
P
r
(
x
)
Pr (x | y) Pr (y) = Pr (y | x) Pr (x)
Pr(x∣y)Pr(y)=Pr(y∣x)Pr(x),整理如下:
P
r
(
y
∣
x
)
=
P
r
(
x
∣
y
)
P
r
(
y
)
P
r
(
x
)
=
P
r
(
x
∣
y
)
P
r
(
y
)
∫
P
r
(
x
,
y
)
d
y
=
Pr
(
x
∣
y
)
P
r
(
y
)
∫
P
r
(
x
∣
y
)
P
r
(
y
)
d
y
\begin{aligned} {Pr}(y \mid x) &=\frac{{Pr}(x \mid y) {Pr}(y)}{{Pr}(x)} \\ &=\frac{{Pr}(x \mid y) {Pr}(y)}{\int {Pr}(x, y) \mathrm{d} y} \\ &=\frac{\operatorname{Pr}(x \mid y) {Pr}(y)}{\int {Pr}(x \mid y) {Pr}(y) \mathrm{d} y} \end{aligned}
Pr(y∣x)=Pr(x)Pr(x∣y)Pr(y)=∫Pr(x,y)dyPr(x∣y)Pr(y)=∫Pr(x∣y)Pr(y)dyPr(x∣y)Pr(y)以上三个式子统称为贝叶斯公式,其中
P
r
(
y
∣
x
)
Pr (y | x)
Pr(y∣x)称为后验概率;
P
r
(
y
)
Pr (y)
Pr(y)称为先验概率;
P
r
(
x
∣
y
)
Pr (x | y)
Pr(x∣y)称为似然性;
P
r
(
x
)
Pr (x)
Pr(x)称为证据。
6)独立性:如果
x
x
x不能获得
y
y
y的任何信息 (反之亦然),就称
x
x
x和
y
y
y是独立的,表示如下:
P
r
(
x
∣
y
)
=
P
r
(
x
)
P
r
(
y
∣
x
)
=
P
r
(
y
)
Pr (x | y) = Pr (x)\\ Pr (y | x) = Pr (y)
Pr(x∣y)=Pr(x)Pr(y∣x)=Pr(y) 7)期望:离散及连续随机变量
x
x
x的函数
f
[
⋅
]
f [\cdot]
f[⋅]的期望分布定义如下:
E
[
f
[
x
]
]
=
∑
x
f
[
x
]
P
r
(
x
)
E
[
f
[
x
]
]
=
∫
f
[
x
]
P
r
(
x
)
d
x
\mathrm{E} [f [x]] = \sum_x f [x] Pr (x)\\ \mathrm{E} [f [x]] = \int f [x] Pr (x) \mathrm{d}x
E[f[x]]=x∑f[x]Pr(x)E[f[x]]=∫f[x]Pr(x)dx推广到二元随机变量,则有:
E
[
f
[
x
,
y
]
]
=
∬
f
[
x
,
y
]
P
r
(
x
,
y
)
d
x
d
y
\mathrm{E} [f [x, y]] = \iint f[x, y] Pr (x, y) \mathrm{d}x \mathrm{d}y
E[f[x,y]]=∬f[x,y]Pr(x,y)dxdy对于某些特殊的函数,期望也被赋予特殊的名字,如下表:
函数 f [ ⋅ ] f [\cdot] f[⋅] | 期望 |
---|---|
x x x | 均值 μ k \mu_k μk |
x k x^k xk | 关于0的第 k k k阶矩阵 |
( x − μ x ) k (x - \mu_x)^k (x−μx)k | 关于均值的第 k k k阶矩阵 |
( x − μ x ) 2 (x - \mu_x)^2 (x−μx)2 | 方差 |
( x − μ x ) 3 (x - \mu_x)^3 (x−μx)3 | 偏差 |
( x − μ x ) 4 (x - \mu_x)^4 (x−μx)4 | 峰度 |
( x − μ x ) ( y − μ y ) (x - \mu_x) (y - \mu_y) (x−μx)(y−μy) | x x x和 y y y的协方差 |
期望的四条性质如下:
- 随机变量
x
x
x是常数
k
k
k:
E [ k ] = k \mathrm{E} [k] = k E[k]=k - E [ k f [ x ] ] = k E [ f [ x ] ] \mathrm{E} [k f[x]] = k \mathrm{E} [f[x]] E[kf[x]]=kE[f[x]]
- E [ f [ x ] + g [ x ] ] = E [ f [ x ] ] + E [ g [ x ] ] \mathrm{E} [f[x] + g[x]] = \mathrm{E} [f[x]] + \mathrm{E} [g[x]] E[f[x]+g[x]]=E[f[x]]+E[g[x]]
-
x
x
x和
y
y
y独立时:
E [ f [ x ] g [ x ] ] = E [ f [ x ] ] E [ g [ x ] ] \mathrm{E} [f[x] g[x]] = \mathrm{E} [f[x]] \mathrm{E} [g[x]] E[f[x]g[x]]=E[f[x]]E[g[x]]
2 常用概率分布
概率分布 P r ( x ) Pr (x) Pr(x)的选择取决于 x x x的定义域,常用的概率分布如下表:
数据类型 | 定义域 | 分布 |
---|---|---|
单变量,离散,二值 | x ∈ { 0 , 1 } x \in \{0, 1\} x∈{0,1} | 伯努利分布 |
单变量,离散,多值 | x ∈ { 1 , 2 , ⋯ , K } x \in \{ 1, 2, \cdots, K \} x∈{1,2,⋯,K} | 分类分布 |
单变量,连续,无界 | x ∈ R x \in \mathbf{R} x∈R | 一元正态分布 |
单变量,连续,有界 | x ∈ [ 0 , 1 ] x \in [0, 1] x∈[0,1] | 贝塔分布 |
多变量,连续,无界 | x ∈ R K \boldsymbol{x} \in \mathbf{R}^K x∈RK | 多元正态分布 |
多变量,连续,有界,和为1 | x = [ x 1 , x 2 , ⋯ , x K ] ⊤ x k ∈ [ 0 , 1 ] , ∑ k = 1 K x k = 1 \boldsymbol{x}=\left[x_{1}, x_{2}, \cdots, x_{K}\right]^{\top}\\ x_{k} \in[0,1], \sum_{k=1}^{K} x_{k}=1 x=[x1,x2,⋯,xK]⊤xk∈[0,1],∑k=1Kxk=1 | 狄利克雷分布 |
双变量,连续, x 1 x_1 x1无界, x 2 x_2 x2有下界 | x = [ x 1 , x 2 ] x 1 ∈ R x 2 ∈ R + \begin{array}{l} \boldsymbol{x} = [x_1, x_2]\\ x_1 \in \mathbf{R}\\ x_2 \in \mathbf{R}^+ \end{array} x=[x1,x2]x1∈Rx2∈R+ | 正态逆伽马分布 |
无界向量 x \boldsymbol{x} x和正定方阵 X \boldsymbol{X} X | x ∈ R K X ∈ R K × K z T X z > 0 ∀ z ∈ R K \begin{array}{l} x \in \mathbf{R}^K\\ \boldsymbol{X} \in \mathbf{R}^{K \times K}\\ \boldsymbol{z}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{z} > 0 \ \ \ \ \forall \boldsymbol{z} \in \mathbf{R}^K \end{array} x∈RKX∈RK×KzTXz>0 ∀z∈RK | 正态逆维希特分布 |
当拟合数据的概率模型时,需要知道拟合的不确定性。该不确定性用拟合模型参数的概率分布来表示。因此对于建模的各种分布,另有一个与参数联系的概率分布表,如下:
分布 | 参数分布 |
---|---|
伯努利分布 | 贝塔分布 |
分类分布 | 狄利克雷分布 |
一元正态分布 | 正态逆伽马分布 |
多元正态分布 | 正态逆维希特分布 |
2.1 伯努利分布
伯努利分布是二项试验的一个离散分布模型:描述的结果 x ∈ { 0 , 1 } x \in \{ 0, 1 \} x∈{0,1},称为“失败”和“成功”,如下图。
伯努利分布只有一个超参数,定义成功一次 (
x
=
1
x = 1
x=1)的概率,即:
P
r
(
x
=
0
)
=
1
−
λ
P
r
(
x
=
1
)
=
λ
\begin{array}{l} Pr (x = 0) = 1 - \lambda\\ Pr(x = 1) = \lambda \end{array}
Pr(x=0)=1−λPr(x=1)=λ或者表示为:
P
r
(
x
)
=
λ
x
(
1
−
λ
)
1
−
x
=
B
e
r
n
x
[
λ
]
Pr (x) = \lambda^x (1 - \lambda)^{1 - x} = \mathrm{Bern}_x [\lambda]
Pr(x)=λx(1−λ)1−x=Bernx[λ]
2.2 贝塔分布
贝塔分布是由单变量
λ
=
[
0
,
1
]
\lambda = [0, 1]
λ=[0,1]定义的连续分布,适合表示伯努利分布中参数
λ
\lambda
λ的不确定性。
贝塔分布包含两个参数,即
(
α
,
β
)
∈
[
0
,
∞
]
(\alpha, \beta) \in [0, \infty]
(α,β)∈[0,∞],其形式为:
P
r
(
λ
)
=
Γ
[
α
+
β
]
Γ
[
α
]
Γ
[
β
]
λ
α
−
1
(
1
−
λ
)
β
−
1
=
B
e
t
a
λ
[
α
,
β
]
{Pr}(\lambda)=\frac{\Gamma[\alpha+\beta]}{\Gamma[\alpha] \Gamma[\beta]} \lambda^{\alpha-1}(1-\lambda)^{\beta-1} = {\rm Beta}_{\lambda} [\alpha, \beta]
Pr(λ)=Γ[α]Γ[β]Γ[α+β]λα−1(1−λ)β−1=Betaλ[α,β]其中
Γ
[
z
]
\Gamma[z]
Γ[z]为伽马函数,其定义且近似如下:
Γ
[
z
]
=
∫
0
∞
t
z
−
1
e
−
t
d
t
≈
(
z
−
1
)
!
\Gamma[z]=\int_{0}^{\infty} t^{z-1} \mathrm{e}^{-t} \mathrm{d} t \approx (z - 1)!
Γ[z]=∫0∞tz−1e−tdt≈(z−1)!
一个示例如下图:
绘制代码如下:
lambda = 0 : 0.01 : 1;
plot(subplot(1, 3, 1), lambda, f(10, 10),lambda, f(2, 2), lambda, f(1, 1), lambda, f(0.5, 0.5), lambda, f(0.1, 0.1));
plot(subplot(1, 3, 2), lambda, f(4, 12),lambda, f(2, 6), lambda, f(1, 3), lambda, f(0.5, 1.5), lambda, f(0.25, 0.75));
plot(subplot(1, 3, 3), lambda, f(12, 4),lambda, f(6, 2), lambda, f(3, 1), lambda, f(1.5, 0.5), lambda, f(0.75, 0.25));
function [p] = f(a, b)
lambda = 0 : 0.01 : 1;
for i = 1 : size(lambda, 2)
p(i) = gamma(a + b) * lambda(i)^(a - 1) * (1 - lambda(i))^(b - 1) / gamma(a) / gamma(b);
end
end
2.3 分类分布
分类分布是一个离散分布,表示
k
k
k个可能结果的概率。特别的,伯努利分布是一个特殊的分类分布。
分类分布的形式如下:
P
r
(
x
=
k
)
=
λ
k
=
C
a
t
[
λ
]
Pr (x = k) = \lambda_k = \mathrm{Cat} [\bm{\lambda}]
Pr(x=k)=λk=Cat[λ]其中
λ
k
∈
[
0
,
1
]
\lambda_k \in [0, 1]
λk∈[0,1],
∑
k
=
1
K
λ
k
=
1
\sum_{k = 1}^K \lambda_k = 1
∑k=1Kλk=1。
2.4 狄利克雷分布
狄利克雷分布定义在
K
K
K个连续值
λ
1
,
⋯
,
λ
K
\lambda_1, \cdots, \lambda_K
λ1,⋯,λK上,其中
λ
k
∈
[
0
,
1
]
\lambda_k \in [0, 1]
λk∈[0,1],
∑
k
=
1
K
λ
k
=
1
\sum_{k = 1}^K \lambda_k = 1
∑k=1Kλk=1,适用于定义分类分布中的参数的分布。
在
K
K
K维空间中,狄利克雷分布有
K
K
K个正参数
α
1
,
⋯
,
α
K
\alpha_1, \cdots, \alpha_{K}
α1,⋯,αK,参数的相对值决定期望值
E
[
λ
1
]
,
⋯
,
E
[
λ
K
]
\mathrm{E} [\lambda_1], \cdots, \mathrm{E} [\lambda_K]
E[λ1],⋯,E[λK],参数的绝对值决定期望值两侧的集中程度,记为:
P
r
(
λ
1
⋯
K
)
=
Γ
[
∑
k
=
1
K
α
k
]
∏
k
=
1
K
Γ
[
α
k
]
∏
k
=
1
K
λ
k
α
k
−
1
=
D
i
r
λ
1
⋯
K
[
α
1
⋯
K
]
Pr (\lambda_{1 \cdots K}) = \frac{\Gamma \left[\sum \limits_{k = 1}^K \alpha_k \right]}{\prod \limits_{k = 1}^K \Gamma \left[ \alpha_k \right]} \prod \limits_{k = 1}^{K} \lambda_k^{\alpha_k - 1} = \mathrm{Dir}_{\lambda_1 \cdots K} \left[ \alpha_1 \cdots K \right]
Pr(λ1⋯K)=k=1∏KΓ[αk]Γ[k=1∑Kαk]k=1∏Kλkαk−1=Dirλ1⋯K[α1⋯K]特别的,贝塔分布是一个特殊的狄利克雷分布。
2.5 一元正态分布
一元正态分布又称高斯分布,参数为均值
μ
\mu
μ和方差
σ
2
\sigma^2
σ2,分布决定峰值的位置与宽度,其形式如下:
P
r
(
x
)
=
1
2
π
σ
2
exp
[
−
0.5
(
x
−
μ
)
2
σ
2
]
=
N
o
r
m
x
[
μ
,
σ
2
]
{Pr}(x)=\frac{1}{\sqrt{2 \pi \sigma^{2}}} \exp \left[-0.5 \frac{(x-\mu)^{2}}{\sigma^{2}}\right] = \mathrm{Norm}_x [\mu, \sigma^2]
Pr(x)=2πσ21exp[−0.5σ2(x−μ)2]=Normx[μ,σ2] 一个示例如下图:
2.6 正态逆伽马分布
正态逆伽马分布有四个参数:
α
,
β
,
λ
,
σ
\alpha, \beta, \lambda, \sigma
α,β,λ,σ,其中前三个参数需大于0,
σ
\sigma
σ则可取任意值;其形式如下:
P
r
(
μ
,
σ
2
)
=
γ
σ
2
π
β
a
Γ
[
α
]
(
1
σ
2
)
a
+
1
exp
[
−
2
β
+
γ
(
δ
−
μ
)
2
2
σ
2
]
=
N
o
r
m
I
n
v
G
a
m
μ
,
σ
2
[
α
,
β
,
λ
,
σ
]
{Pr}\left(\mu, \sigma^{2}\right)=\frac{\sqrt{\gamma}}{\sigma \sqrt{2 \pi}} \frac{\beta^{a}}{\Gamma[\alpha]}\left(\frac{1}{\sigma^{2}}\right)^{a+1} \exp \left[-\frac{2 \beta+\gamma(\delta-\mu)^{2}}{2 \sigma^{2}}\right] = \mathrm{NormInvGam}_{\mu, \sigma^2} [\alpha, \beta, \lambda, \sigma]
Pr(μ,σ2)=σ2πγΓ[α]βa(σ21)a+1exp[−2σ22β+γ(δ−μ)2]=NormInvGamμ,σ2[α,β,λ,σ]
2.7 多元正态分布
多元正态分布是将一元正态分布推广到多为的结果,其形式如下:
P
r
(
x
)
=
1
(
2
π
)
D
/
2
∣
Σ
∣
1
/
2
exp
[
−
0.5
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
]
=
N
o
r
m
x
[
μ
,
Σ
]
{Pr}(\boldsymbol{x})=\frac{1}{(2 \pi)^{D / 2}|\mathbf{\Sigma}|^{1 / 2}} \exp \left[-0.5(\boldsymbol{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right] = \mathrm{Norm}_x [\bm{\mu, \Sigma}]
Pr(x)=(2π)D/2∣Σ∣1/21exp[−0.5(x−μ)TΣ−1(x−μ)]=Normx[μ,Σ]其中
μ
\bm{\mu}
μ是
D
D
D维均值向量,
Σ
\bm{\Sigma}
Σ是
D
×
D
D \times D
D×D的协方差矩阵,
D
D
D是
x
\boldsymbol{x}
x的维度。
2.8 正态逆维希特分布
这里只给出其形式:
P
r
(
μ
,
Σ
)
=
γ
D
/
2
∣
Ψ
∣
a
/
2
∣
Σ
∣
−
(
α
+
D
+
2
)
/
2
exp
[
−
0.5
(
Tr
[
Ψ
Σ
−
1
]
+
γ
(
μ
−
δ
)
⊤
Σ
−
1
(
μ
−
δ
)
γ
D
/
2
)
]
2
α
D
/
2
(
2
π
)
D
/
2
Γ
D
[
α
/
2
]
=
N
o
r
I
W
i
s
μ
⋅
Σ
[
α
,
Ψ
,
γ
,
δ
]
{Pr}(\boldsymbol{\mu}, \boldsymbol{\Sigma})=\frac{\gamma^{D / 2}|\boldsymbol{\Psi}|^{a / 2}|\boldsymbol{\Sigma}|^{-(\alpha+D+2) / 2} \exp \left[-0.5\left(\operatorname{Tr}\left[\boldsymbol{\Psi} \boldsymbol{\Sigma}^{-1}\right]+\gamma(\boldsymbol{\mu}-\boldsymbol{\delta})^{\top} \boldsymbol{\Sigma}^{-1}(\boldsymbol{\mu}-\boldsymbol{\delta}) \gamma^{D / 2}\right)\right]}{2^{\alpha D / 2}(2 \pi)^{D / 2} \Gamma_{D}[\alpha / 2]} = \mathrm{NorIWis}_{\mu \cdot \Sigma}[\alpha, \Psi, \gamma, \boldsymbol{\delta}]
Pr(μ,Σ)=2αD/2(2π)D/2ΓD[α/2]γD/2∣Ψ∣a/2∣Σ∣−(α+D+2)/2exp[−0.5(Tr[ΨΣ−1]+γ(μ−δ)⊤Σ−1(μ−δ)γD/2)]=NorIWisμ⋅Σ[α,Ψ,γ,δ]
2.9 共轭性
贝塔分布可以用于定于伯努利分布中参数的分布,狄利克雷分布可以定义分类分布参数的分布,这样的关系称为共轭。当把一个分布与其共轭分布相乘时,结果正比于一个新的分布,例如:
Bern
x
[
λ
]
⋅
Beta
λ
[
α
,
β
]
=
k
(
x
,
α
,
β
)
⋅
Beta
α
[
α
~
,
β
~
]
\operatorname{Bern}_{x}[\lambda] \cdot \operatorname{Beta}_{\lambda}[\alpha, \beta]=k(x, \alpha, \beta) \cdot \operatorname{Beta}_{\alpha}[\widetilde{\alpha}, \widetilde{\beta}]
Bernx[λ]⋅Betaλ[α,β]=k(x,α,β)⋅Betaα[α
,β
]