1 高斯分布
这部分内容主要借鉴自机器学习-白板推导系列笔记(二)-数学基础。这里先假设我们拿到一堆数据,如下所示:
D
a
t
a
:
X
=
[
x
1
,
x
2
,
⋯
,
x
n
]
n
×
p
T
=
[
x
1
T
x
2
T
⋮
x
n
T
]
n
×
p
=
[
x
11
x
12
⋯
x
1
p
x
21
x
22
⋯
x
2
p
⋮
⋮
⋮
⋮
x
n
1
x
n
2
⋯
x
n
p
]
n
×
p
(1-1)
Data:\pmb{X} = [\pmb{x}_{1},\pmb{x}_{2},\cdots ,\pmb{x}_{n}]^{T}_{n \times p}= \begin{bmatrix} \pmb{x}_{1}^{T}\\ \pmb{x}_{2}^{T}\\ \vdots \\ \pmb{x}_{n}^{T} \end{bmatrix}_{n \times p} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \vdots &\vdots \\ x_{n1} & x_{n2} & \cdots & x_{np} \\ \end{bmatrix}_{n \times p} \tag{1-1}
Data:XXX=[xxx1,xxx2,⋯,xxxn]n×pT=⎣⎢⎢⎢⎡xxx1Txxx2T⋮xxxnT⎦⎥⎥⎥⎤n×p=⎣⎢⎢⎢⎡x11x21⋮xn1x12x22⋮xn2⋯⋯⋮⋯x1px2p⋮xnp⎦⎥⎥⎥⎤n×p(1-1)
其中, x i = ( x i 1 , x i 2 , ⋯ , x i p ) T ∈ R p , x i ∼ i i d N ( μ i , σ i 2 ) , θ = ( μ , Σ ) x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T} \in \mathbb{R}^p,x_i \overset{iid} \sim N(\mu_i , \sigma_i^2),\pmb{\theta}=(\boldsymbol{\mu},\boldsymbol{\Sigma}) xi=(xi1,xi2,⋯,xip)T∈Rp,xi∼iidN(μi,σi2),θθθ=(μ,Σ), i i d iid iid 表示独立同分布。
假设数据
X
\pmb{X}
XXX 中有
n
n
n 个样本,每个样本
x
i
\pmb{x}_i
xxxi 为
p
p
p 维数据(含有
p
p
p 个feature
),所有的样本都独立同分布于高斯分布。
在上面的数据矩阵里,为了便于下面的推导,这里规定,
x
i
j
\pmb{x}_{ij}
xxxij 表示第
i
i
i 个样本的第
j
j
j 个属性,用行向量
x
i
\pmb{x}_i
xxxi 代表第
i
i
i 个样本的
p
p
p 维数据,当
p
=
1
p=1
p=1时,表示取出某一列(第
j
j
j 列)数据进行分析,用随机变量
X
1
j
,
X
2
j
,
⋯
,
X
n
j
X_{1j}, X_{2j}, \cdots, X_{nj}
X1j,X2j,⋯,Xnj 表示,为了方便下面的推导,可以用随机变量
X
1
,
X
2
,
⋯
,
X
n
X_{1}, X_{2}, \cdots, X_{n}
X1,X2,⋯,Xn 替代,取值分别是
x
1
,
x
2
,
⋯
,
x
n
x_1, x_2, \cdots, x_n
x1,x2,⋯,xn;若分析每个样本
x
i
\pmb{x}_i
xxxi 的
p
p
p 维数据,为了区分,用列向量
y
j
\pmb{y}_j
yyyj 代表所有样本的第
j
j
j 特征的
n
n
n 维数据,用随机变量
Y
1
(
ξ
)
,
Y
2
(
ξ
)
,
⋯
,
Y
p
(
ξ
)
Y_1(\xi), Y_2(\xi), \cdots, Y_p(\xi)
Y1(ξ),Y2(ξ),⋯,Yp(ξ) 表示,此时用随机向量
Y
\pmb{Y}
YYY 表示。
下面的一维情况就是每个样本
x
i
\pmb{x}_i
xxxi 为
p
=
1
p=1
p=1 维数据(此时只对某一特征进行分析);而多维情况就是每个样本
x
i
\pmb{x}_i
xxxi 为
p
p
p 维数据(此时对所有特征进行分析)。
1.1 一维情况
1. 似然函数
对于一维情况,即
p
=
1
,
θ
=
[
μ
,
σ
2
]
T
p=1, \pmb{\theta}=[\mu, \sigma^2]^T
p=1,θθθ=[μ,σ2]T,可知它的概率密度函数为:
f
(
x
)
=
1
2
π
σ
e
x
p
(
−
(
x
−
μ
)
2
2
σ
2
)
(1-2)
f(x)=\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(x-\mu )^{2}}{2\sigma ^{2}}) \tag{1-2}
f(x)=2πσ1exp(−2σ2(x−μ)2)(1-2)
需要估计的参数为
θ
=
[
μ
,
σ
]
T
\pmb{\theta}=[\mu, \sigma]^T
θθθ=[μ,σ]T,则对于样本
(
X
1
,
X
2
,
⋯
,
X
n
)
T
(X_1, X_2, \cdots, X_n)^T
(X1,X2,⋯,Xn)T 的联合概率密度函数为
∏
i
=
1
n
f
(
x
i
;
θ
)
\prod_{i=1}^{n}f(x_i; \theta)
∏i=1nf(xi;θ),当给定样本值
(
x
1
,
x
2
,
⋯
,
x
n
)
T
(x_1, x_2, \cdots, x_n)^T
(x1,x2,⋯,xn)T 后,它只是参数
θ
\pmb{\theta}
θθθ 的函数,记为
L
(
θ
)
L(\pmb{\theta})
L(θθθ),即
L
(
θ
)
=
∏
i
=
1
n
f
(
x
i
;
θ
)
(1-3)
L(\pmb{\theta})=\prod_{i=1}^{n}f(x_i; \pmb{\theta}) \tag{1-3}
L(θθθ)=i=1∏nf(xi;θθθ)(1-3)
这个函数
L
L
L 称为似然函数,即似然函数就是样本的联合概率密度函数。
2. 极大似然估计法
频率派认为参数
θ
\pmb{\theta}
θθθ 是一个固定的常数(constant),频率派常用的求解方法为极大似然估计法,即先对
L
(
θ
)
L(\pmb{\theta})
L(θθθ) 取对数,使得后续求导计算更加方便,而
L
(
θ
)
L(\pmb{\theta})
L(θθθ) 与
l
n
(
L
(
θ
)
)
ln(L(\pmb{\theta}))
ln(L(θθθ)) 在同一
θ
\pmb{\theta}
θθθ 处取到极值,则
θ
M
L
E
=
a
r
g
m
a
x
θ
l
n
(
L
(
θ
)
)
=
i
i
d
a
r
g
m
a
x
θ
∑
i
=
1
n
ln
f
(
x
i
;
θ
)
(1-4)
\pmb{\theta}_{MLE}=\underset{\boldsymbol{\theta}}{argmax}\quad ln(L(\pmb{\theta})) \mathop{=}\limits _{iid}\mathop{argmax}\limits _{\boldsymbol{\theta}}\sum\limits _{i=1}^{n}\ln f(x_{i}; \boldsymbol{\theta}) \tag{1-4}
θθθMLE=θargmaxln(L(θθθ))iid=θargmaxi=1∑nlnf(xi;θ)(1-4)
由于各样本都独立同分布于高斯分布,则
l
n
(
L
(
θ
)
)
=
l
n
∏
i
=
1
n
f
(
x
i
;
θ
)
=
∑
i
=
1
n
l
n
1
2
π
σ
e
x
p
(
−
(
x
i
−
μ
)
2
2
σ
2
)
=
∑
i
=
1
n
[
l
n
1
2
π
+
l
n
1
σ
−
(
x
i
−
μ
)
2
2
σ
2
]
(1-5)
\begin{aligned} ln(L(\boldsymbol{\theta})) &=ln\prod_{i=1}^{n}f(x_{i};\boldsymbol{\theta})\\ &=\sum_{i=1}^{n}ln\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}})\\ &=\sum_{i=1}^{n}[ln\frac{1}{\sqrt{2\pi }}+ln\frac{1}{\sigma }-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}}] \end{aligned} \tag{1-5}
ln(L(θ))=lni=1∏nf(xi;θ)=i=1∑nln2πσ1exp(−2σ2(xi−μ)2)=i=1∑n[ln2π1+lnσ1−2σ2(xi−μ)2](1-5)
由于
θ
\pmb{\theta}
θθθ 是个二维的向量,所以分别求解
μ
M
L
E
\mu_{MLE}
μMLE 和
σ
M
L
E
\sigma_{MLE}
σMLE
3. 求解
μ
M
L
E
\mu_{MLE}
μMLE
由于常数项与优化无关故舍去,只需要保留含有
μ
\mu
μ 的项,则
μ
M
L
E
=
a
r
g
m
a
x
μ
l
n
(
L
(
θ
)
)
=
a
r
g
m
a
x
μ
∑
i
=
1
N
−
(
x
i
−
μ
)
2
2
σ
2
=
a
r
g
m
i
n
μ
∑
i
=
1
N
(
x
i
−
μ
)
2
(1-6)
\begin{aligned} \mu _{MLE} &=\underset{\mu }{argmax} \quad ln(L(\boldsymbol{\theta}))\\ &=\underset{\mu }{argmax}\sum_{i=1}^{N}-\frac{(x_{i}-\mu )^{2}}{2\sigma ^{2}}\\ &=\underset{\mu }{argmin}\sum_{i=1}^{N}(x_{i}-\mu )^{2} \end{aligned} \tag{1-6}
μMLE=μargmaxln(L(θ))=μargmaxi=1∑N−2σ2(xi−μ)2=μargmini=1∑N(xi−μ)2(1-6)
接下来对其求导,找出极大值,
∂
∑
i
=
1
N
(
x
i
−
μ
)
2
∂
μ
=
∑
i
=
1
N
2
(
x
i
−
μ
)
(
−
1
)
=
0
⇔
∑
i
=
1
N
(
x
i
−
μ
)
=
0
⇔
∑
i
=
1
N
x
i
−
∑
i
=
1
N
μ
⏟
N
μ
=
0
(1-7)
\frac{\partial \sum_{i=1}^{N}(x_{i}-\mu )^{2}}{\partial \mu}=\sum_{i=1}^{N}2(x_{i}-\mu )(-1)=0\\ \Leftrightarrow \sum_{i=1}^{N}(x_{i}-\mu )=0\\ \Leftrightarrow \sum_{i=1}^{N}x_{i}-\underset{N\mu }{\underbrace{\sum_{i=1}^{N}\mu }}=0 \tag{1-7}
∂μ∂∑i=1N(xi−μ)2=i=1∑N2(xi−μ)(−1)=0⇔i=1∑N(xi−μ)=0⇔i=1∑Nxi−Nμ
i=1∑Nμ=0(1-7)
最终得到:
μ
M
L
E
=
1
N
∑
i
=
1
N
x
i
(1-8)
\mu _{MLE}=\frac{1}{N}\sum_{i=1}^{N}x_{i} \tag{1-8}
μMLE=N1i=1∑Nxi(1-8)
证明
μ
M
L
E
\mu _{MLE}
μMLE 是无偏估计
E
[
μ
M
L
E
]
=
1
N
∑
i
=
1
N
E
[
x
i
]
=
1
N
∑
i
=
1
N
μ
=
1
N
N
μ
=
μ
(1-9)
E[\mu _{MLE}]=\frac{1}{N}\sum_{i=1}^{N}E[x_{i}] =\frac{1}{N}\sum_{i=1}^{N}\mu =\frac{1}{N}N\mu =\mu \tag{1-9}
E[μMLE]=N1i=1∑NE[xi]=N1i=1∑Nμ=N1Nμ=μ(1-9)
4. 求解
σ
M
L
E
\sigma_{MLE}
σMLE
σ
M
L
E
2
=
a
r
g
m
a
x
σ
∑
i
=
1
n
[
ln
1
σ
−
(
x
i
−
μ
)
2
2
σ
2
]
=
a
r
g
m
a
x
σ
∑
i
=
1
n
[
−
ln
σ
−
1
2
σ
2
(
x
i
−
μ
)
2
]
(1-10)
\begin{aligned} \sigma^2_{MLE} &= \underset{\sigma}{argmax} \sum_{i=1}^n[\ln{1\over\sigma}-{(x_i-\mu)^2\over2\sigma^2}]\\ &= \underset{\sigma} {argmax} \sum_{i=1}^n[-\ln{\sigma}-{1\over2\sigma^2}(x_i-\mu)^2] \end{aligned} \tag{1-10}
σMLE2=σargmaxi=1∑n[lnσ1−2σ2(xi−μ)2]=σargmaxi=1∑n[−lnσ−2σ21(xi−μ)2](1-10)
对
σ
\sigma
σ 求导,找出最优解
∂
∂
σ
∑
i
=
1
N
[
−
ln
σ
−
1
2
σ
2
(
x
i
−
μ
)
2
]
=
∑
i
=
1
N
[
−
1
σ
−
1
2
(
x
i
−
μ
)
2
(
−
2
)
1
σ
3
]
=
0
⇔
∑
i
=
1
N
[
−
1
σ
+
(
x
i
−
μ
)
2
σ
−
3
]
=
0
⇔
∑
i
=
1
N
[
−
σ
2
+
(
x
i
−
μ
)
2
]
=
0
⇔
−
∑
i
=
1
N
σ
2
+
∑
i
=
1
N
(
x
i
−
μ
)
2
=
0
σ
M
L
E
2
=
1
N
∑
i
=
1
N
(
x
i
−
μ
)
2
(1-11)
{\partial\over\partial\sigma}\displaystyle\sum_{i=1}^N[-\ln{\sigma}-{1\over2\sigma^2}(x_i-\mu)^2] =\displaystyle\sum_{i=1}^N[-{1\over\sigma}-{1\over2}(x_i-\mu)^2(-2){1\over\sigma^3}]=0 \\ \Leftrightarrow \sum_{i=1}^{N}[-\frac{1}{\sigma }+(x_{i}-\mu )^{2}\sigma ^{-3}]=0\\ \Leftrightarrow \sum_{i=1}^{N}[-\sigma ^{2}+(x_{i}-\mu )^{2}]=0\\ \Leftrightarrow -\sum_{i=1}^{N}\sigma ^{2}+\sum_{i=1}^{N}(x_{i}-\mu )^{2}=0\\ \sigma _{MLE}^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu )^{2} \tag{1-11}
∂σ∂i=1∑N[−lnσ−2σ21(xi−μ)2]=i=1∑N[−σ1−21(xi−μ)2(−2)σ31]=0⇔i=1∑N[−σ1+(xi−μ)2σ−3]=0⇔i=1∑N[−σ2+(xi−μ)2]=0⇔−i=1∑Nσ2+i=1∑N(xi−μ)2=0σMLE2=N1i=1∑N(xi−μ)2(1-11)
μ
\mu
μ 取
μ
M
L
E
\mu_{MLE}
μMLE 时,
σ
M
L
E
2
=
1
N
∑
i
=
1
N
(
x
i
−
μ
M
L
E
)
2
(1-12)
\sigma _{MLE}^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu _{MLE})^{2} \tag{1-12}
σMLE2=N1i=1∑N(xi−μMLE)2(1-12)
要证明
σ
M
L
E
2
\sigma _{MLE}^{2}
σMLE2 是有偏估计,就需要判断
E
[
σ
M
L
E
2
]
=
?
σ
2
E[\sigma _{MLE}^{2}]\overset{?}{=}\sigma ^{2}
E[σMLE2]=?σ2,证明如下:
D
[
μ
M
L
E
]
=
D
[
1
N
∑
i
=
1
N
x
i
]
=
1
N
2
∑
i
=
1
N
D
[
x
i
]
=
1
N
2
∑
i
=
1
N
σ
2
=
σ
2
N
(1-13)
{D[\mu _{MLE}]}=D[\frac{1}{N}\sum_{i=1}^{N}x_{i}]=\frac{1}{N^{2}}\sum_{i=1}^{N}D[x_{i}]=\frac{1}{N^{2}}\sum_{i=1}^{N}\sigma ^{2}=\frac{\sigma ^{2}}{N} \tag{1-13}
D[μMLE]=D[N1i=1∑Nxi]=N21i=1∑ND[xi]=N21i=1∑Nσ2=Nσ2(1-13)
σ M L E 2 = 1 N ∑ i = 1 N ( x i − μ M L E ) 2 = 1 N ∑ i = 1 N ( x i 2 − 2 x i μ M L E + μ M L E 2 ) = 1 N ∑ i = 1 N x i 2 − 1 N ∑ i = 1 N 2 x i μ M L E + 1 N ∑ i = 1 N μ M L E 2 = 1 N ∑ i = 1 N x i 2 − 2 μ M L E 2 + μ M L E 2 = 1 N ∑ i = 1 N x i 2 − μ M L E 2 (1-14) \begin{aligned}{\sigma _{MLE}^{2}} &=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu _{MLE})^{2}\\ &=\frac{1}{N}\sum_{i=1}^{N}(x_{i}^{2}-2x_{i}\mu _{MLE}+\mu _{MLE}^{2})\\ &=\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\frac{1}{N}\sum_{i=1}^{N}2x_{i}\mu _{MLE}+\frac{1}{N}\sum_{i=1}^{N}\mu _{MLE}^{2}\\ &=\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-2\mu _{MLE}^{2}+\mu _{MLE}^{2}\\ &=\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\mu _{MLE}^{2} \end{aligned} \tag{1-14} σMLE2=N1i=1∑N(xi−μMLE)2=N1i=1∑N(xi2−2xiμMLE+μMLE2)=N1i=1∑Nxi2−N1i=1∑N2xiμMLE+N1i=1∑NμMLE2=N1i=1∑Nxi2−2μMLE2+μMLE2=N1i=1∑Nxi2−μMLE2(1-14)
E
[
σ
M
L
E
2
]
=
E
[
1
N
∑
i
=
1
N
x
i
2
−
μ
M
L
E
2
]
=
E
[
1
N
∑
i
=
1
N
(
x
i
2
−
μ
M
L
E
2
)
]
=
1
N
∑
i
=
1
N
(
E
[
x
i
2
]
−
E
[
μ
M
L
E
2
]
)
=
1
N
∑
i
=
1
N
(
D
[
x
i
]
+
E
[
x
i
]
2
−
D
[
μ
M
L
E
]
−
E
[
μ
M
L
E
]
2
)
=
1
N
∑
i
=
1
N
(
σ
M
L
E
2
+
μ
2
−
σ
2
N
−
μ
2
)
=
N
−
1
N
σ
M
L
E
2
(1-15)
\begin{aligned} E[\sigma^2_{MLE}] &=E[{1\over N}\displaystyle\sum_{i=1}^Nx_i^2-\mu^2_{MLE}]\\ &=E[{1\over N}\displaystyle\sum_{i=1}^N(x_i^2-\mu^2_{MLE})]\\ &={1\over N}\displaystyle\sum_{i=1}^N(E[x_i^2]-E[\mu^2_{MLE}])\\ &={1\over N}\displaystyle\sum_{i=1}^N(D[x_i]+{E[x_i]}^2-D[\mu_{MLE}]-{E[\mu_{MLE}]}^2)\\ &={1\over N}\displaystyle\sum_{i=1}^N(\sigma_{MLE}^2+\mu^2-\frac{\sigma ^{2}}{N} -\mu^2)\\ &={N-1 \over N}\sigma_{MLE}^2 \end{aligned} \tag{1-15}
E[σMLE2]=E[N1i=1∑Nxi2−μMLE2]=E[N1i=1∑N(xi2−μMLE2)]=N1i=1∑N(E[xi2]−E[μMLE2])=N1i=1∑N(D[xi]+E[xi]2−D[μMLE]−E[μMLE]2)=N1i=1∑N(σMLE2+μ2−Nσ2−μ2)=NN−1σMLE2(1-15)
方差的无偏估计为:
σ
^
2
=
1
N
−
1
∑
i
=
1
N
(
x
i
−
μ
M
L
E
)
2
(1-16)
\hat{\sigma} ^{2}=\frac{1}{N-1}\sum_{i=1}^{N}(x_{i}-\mu _{MLE})^{2} \tag{1-16}
σ^2=N−11i=1∑N(xi−μMLE)2(1-16)
为什么 μ M L E \mu _{MLE} μMLE 是无偏估计,而 σ M L E 2 \sigma _{MLE}^{2} σMLE2 是有偏估计呢?
有两种理解方式:第一种:上面的推导中,当对 σ M L E \sigma_{MLE} σMLE 求 期望的时候由于使用了单个数据集的 μ M L E \mu_{MLE} μMLE,因此对所有数据集求期望的时候我们会发现 σ M L E \sigma_{MLE} σMLE 是有偏的;第二种:可以理解为当 μ \mu μ 取 μ M L E \mu_{MLE} μMLE 就已经确定了所有 x i x_{i} xi 的和等于 n μ M L E n\mu_{MLE} nμMLE,也就是说当 N − 1 N-1 N−1 个 x i x_{i} xi 确定以后,第 N N N 个 x i x_{i} xi 也就被确定了,所以少了一个“自由度”,因此 E [ σ M L E 2 ] = N − 1 N σ 2 E[{\sigma_{MLE}^{2}}]=\frac{N-1}{N}\sigma ^{2} E[σMLE2]=NN−1σ2
1.2 多维情况
对于高维情况,即要考虑每个样本
x
i
\pmb{x}_i
xxxi 为
p
p
p 维数据,此时为了和上面的区分,按上面的定义,此时随机变量为
Y
1
(
ξ
)
,
Y
2
(
ξ
)
,
⋯
,
Y
p
(
ξ
)
Y_1(\xi), Y_2(\xi), \cdots, Y_p(\xi)
Y1(ξ),Y2(ξ),⋯,Yp(ξ),而
θ
=
[
μ
,
Σ
]
T
\pmb{\theta}=[\pmb{\mu}, \pmb{\Sigma}]^T
θθθ=[μμμ,ΣΣΣ]T,此时由多元正态分布的定义可知,对于
p
p
p 维随机向量
Y
=
[
Y
1
(
ξ
)
,
Y
2
(
ξ
)
,
⋯
,
Y
p
(
ξ
)
]
T
\pmb{Y} = [Y_1(\xi), Y_2(\xi), \cdots, Y_p(\xi)]^T
YYY=[Y1(ξ),Y2(ξ),⋯,Yp(ξ)]T 的概率密度为:
f
(
y
1
,
y
2
,
⋯
,
y
p
)
=
1
(
2
π
)
p
/
2
∣
Σ
∣
1
/
2
e
x
p
(
−
1
2
(
y
−
μ
)
T
Σ
−
1
(
y
−
μ
)
⏟
二
次
型
)
y
∈
R
p
(1-17)
f(y_1,y_2, \cdots, y_p) =\frac{1}{(2\pi )^{p/2}|\boldsymbol{\Sigma} |^{1/2}}exp(-\frac{1}{2}\underset{二次型}{\underbrace{(\boldsymbol{y}-\boldsymbol{\mu})^{T}\boldsymbol{\Sigma} ^{-1}(\boldsymbol{y}-\boldsymbol{\mu})}})\quad \pmb{y}\in \mathbb{R}^{p} \tag{1-17}
f(y1,y2,⋯,yp)=(2π)p/2∣Σ∣1/21exp(−21二次型
(y−μ)TΣ−1(y−μ))yyy∈Rp(1-17)
则称
Y
\pmb{Y}
YYY 服从
p
p
p 维正态分布,也称
Y
\pmb{Y}
YYY 为
p
p
p 维正态变量,记为
Y
∼
N
p
(
μ
,
Σ
)
\boldsymbol{Y}{\sim }N_p(\boldsymbol{\mu} ,\boldsymbol{\Sigma} )
Y∼Np(μ,Σ),其中
μ
\pmb{\mu}
μμμ 为
Y
\pmb{Y}
YYY 的均值向量,
Σ
\pmb{\Sigma}
ΣΣΣ 为
Y
\pmb{Y}
YYY 的协方差矩阵(简称为协差阵),
Σ
\pmb{\Sigma}
ΣΣΣ 是实对称矩阵,一般是半正定的,在本次证明中假设是正定的,即所有的特征值都是正的。
设随机向量
Y
\boldsymbol{Y}
Y 的分量
Y
i
Y_i
Yi 的均值为
E
(
Y
i
)
=
μ
i
,
i
=
1
,
2
,
⋯
,
p
E(Y_i)=\mu_i, i=1, 2, \cdots, p
E(Yi)=μi,i=1,2,⋯,p,则定义
Y
\boldsymbol{Y}
Y 的均值为
E
(
Y
)
=
[
E
Y
1
E
Y
2
⋮
E
Y
p
]
=
[
μ
1
μ
2
⋮
μ
p
]
=
μ
(1-18)
E(\boldsymbol{Y}) = \begin{bmatrix} E{Y_1} \\ E{Y_2} \\\vdots \\ E{Y_p} \end{bmatrix} = \begin{bmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_p \end{bmatrix} = \pmb{\mu} \tag{1-18}
E(Y)=⎣⎢⎢⎢⎡EY1EY2⋮EYp⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡μ1μ2⋮μp⎦⎥⎥⎥⎤=μμμ(1-18)
其中
μ
\mu
μ 是一个
p
p
p 维的列向量,称为均值向量。
而定义随机向量
Y
\boldsymbol{Y}
Y 的协方差矩阵为
D
(
Y
)
=
E
[
(
Y
−
E
(
Y
)
)
(
Y
−
E
(
Y
)
)
T
]
=
[
σ
11
σ
12
⋯
σ
1
p
σ
21
σ
22
⋯
σ
2
p
⋮
⋮
⋮
σ
p
1
σ
p
2
⋯
σ
p
p
]
p
×
p
=
d
e
f
Σ
(1-19)
D(\boldsymbol{Y}) = E[(\boldsymbol{Y} - E(\boldsymbol{Y}))(\boldsymbol{Y} - E(\boldsymbol{Y}))^T] = \begin{bmatrix} \sigma_{11}&\sigma_{12}&\cdots&\sigma_{1p}\\ \sigma_{21}&\sigma_{22}&\cdots&\sigma_{2p}\\ \vdots&\vdots&&\vdots\\ \sigma_{p1}&\sigma_{p2}&\cdots&\sigma_{pp}\\ \end{bmatrix}_{p\times p} \overset{def}{=} \boldsymbol{\Sigma} \tag{1-19}
D(Y)=E[(Y−E(Y))(Y−E(Y))T]=⎣⎢⎢⎢⎡σ11σ21⋮σp1σ12σ22⋮σp2⋯⋯⋯σ1pσ2p⋮σpp⎦⎥⎥⎥⎤p×p=defΣ(1-19)
其中, σ i j = E [ ( Y i − E Y i ) ( Y j − E Y j ) ] , i , j = 1 , 2 , ⋯ , p \sigma_{ij} = E[({Y_i} - E{Y_i})({Y_j} - E{Y_j})], i,j =1, 2, \cdots, p σij=E[(Yi−EYi)(Yj−EYj)],i,j=1,2,⋯,p
下面简单推导一下
p
p
p 维正态分布。考虑最简单的情况,在各元素相互统计独立的条件下,高斯随机向量的概率密度函数是向量的
p
p
p 个随机变量的联合概率密度函数:
f
(
y
)
=
f
(
y
1
,
⋯
,
y
p
)
=
f
(
y
1
)
⋯
f
(
y
p
)
=
1
2
π
σ
1
2
e
x
p
(
−
(
y
1
−
y
ˉ
1
)
2
2
σ
1
2
)
⋯
1
2
π
σ
p
2
e
x
p
(
−
(
y
p
−
y
ˉ
p
)
2
2
σ
p
2
)
=
1
2
π
p
/
2
σ
1
⋯
σ
p
e
x
p
(
−
(
y
1
−
y
ˉ
1
)
2
2
σ
1
2
−
⋯
−
(
y
p
−
y
ˉ
p
)
2
2
σ
p
2
)
=
1
2
π
p
/
2
∣
Σ
∣
1
/
2
e
x
p
(
−
1
2
[
y
1
−
y
ˉ
1
,
⋯
,
y
p
−
y
ˉ
p
]
[
σ
1
−
2
0
0
0
⋱
0
0
0
σ
p
−
2
]
[
y
1
−
y
ˉ
1
⋮
y
p
−
y
ˉ
p
]
)
(1-20)
\begin{aligned} f(\pmb{y}) = f(y_1, \cdots, y_p) &= f(y_1)\cdots f(y_p) \\&= \frac{1}{\sqrt{2\pi\sigma_1^2}}exp(-\frac{(y_1-\bar{y}_1 )^{2}}{2\sigma_1^{2}}) \cdots \frac{1}{\sqrt{2\pi }\sigma_p^2 }exp(-\frac{(y_p-\bar{y}_p)^{2}}{2\sigma_p^{2}}) \\ &= \frac{1}{\sqrt{2\pi}^{p/2}\sigma_1 \cdots \sigma_p}exp(-\frac{(y_1-\bar{y}_1 )^{2}}{2\sigma_1^{2}} - \cdots - \frac{(y_p-\bar{y}_p)^{2}}{2\sigma_p^{2}}) \\ &= \frac{1}{\sqrt{2\pi}^{p/2}\rvert \Sigma \rvert ^{1/2}} exp(-\frac{1}{2}[y_1-\bar{y}_1, \cdots, y_p-\bar{y}_p] \begin{bmatrix} \sigma_1^{-2} & 0 & 0 \\\\ 0 & \ddots & 0 \\\\ 0 & 0 & \sigma_p^{-2} \end{bmatrix} \begin{bmatrix} y_1-\bar{y}_1 \\ \vdots \\ y_p-\bar{y}_p \end{bmatrix}) \end{aligned} \tag{1-20}
f(yyy)=f(y1,⋯,yp)=f(y1)⋯f(yp)=2πσ121exp(−2σ12(y1−yˉ1)2)⋯2πσp21exp(−2σp2(yp−yˉp)2)=2πp/2σ1⋯σp1exp(−2σ12(y1−yˉ1)2−⋯−2σp2(yp−yˉp)2)=2πp/2∣Σ∣1/21exp(−21[y1−yˉ1,⋯,yp−yˉp]⎣⎢⎢⎢⎢⎡σ1−2000⋱000σp−2⎦⎥⎥⎥⎥⎤⎣⎢⎡y1−yˉ1⋮yp−yˉp⎦⎥⎤)(1-20)
整理后,即可得到各元素统计独立的高斯随机向量
Y
∼
N
p
(
μ
,
Σ
)
\boldsymbol{Y}{\sim }N_p(\boldsymbol{\mu} ,\boldsymbol{\Sigma} )
Y∼Np(μ,Σ) 的概率密度函数为
f
(
y
)
=
1
(
2
π
)
p
/
2
∣
Σ
∣
1
/
2
e
x
p
(
−
1
2
(
y
−
μ
)
T
Σ
−
1
(
y
−
μ
)
)
(1-21)
f(\pmb{y}) =\frac{1}{(2\pi )^{p/2}|\boldsymbol{\Sigma} |^{1/2}}exp(-\frac{1}{2}{(\boldsymbol{y}-\boldsymbol{\mu})^{T}\boldsymbol{\Sigma} ^{-1}(\boldsymbol{y}-\boldsymbol{\mu})}) \tag{1-21}
f(yyy)=(2π)p/2∣Σ∣1/21exp(−21(y−μ)TΣ−1(y−μ))(1-21)
若元素之间不相互统计独立,则高斯随机向量
Y
∼
N
p
(
μ
,
Σ
)
\boldsymbol{Y}{\sim }N_p(\boldsymbol{\mu} ,\boldsymbol{\Sigma} )
Y∼Np(μ,Σ) 的概率密度函数仍然由式(1-21)给出,但指数项为:
(
y
−
μ
)
T
Σ
−
1
(
y
−
μ
)
=
∑
i
=
1
p
∑
j
=
1
p
[
Σ
−
1
]
i
,
j
(
y
i
−
μ
i
)
(
y
j
−
μ
j
)
(1-22)
{(\boldsymbol{y}-\boldsymbol{\mu})^{T}\boldsymbol{\Sigma} ^{-1}(\boldsymbol{y}-\boldsymbol{\mu})}=\sum_{i=1}^{p} \sum_{j=1}^{p}[\boldsymbol{\Sigma}^{-1}]_{i,j}(y_i-\mu_i)(y_j-\mu_j) \tag{1-22}
(y−μ)TΣ−1(y−μ)=i=1∑pj=1∑p[Σ−1]i,j(yi−μi)(yj−μj)(1-22)
式子中,
[
Σ
−
1
]
i
,
j
[\boldsymbol{\Sigma}^{-1}]_{i,j}
[Σ−1]i,j 表示逆矩阵
Σ
−
1
\boldsymbol{\Sigma}^{-1}
Σ−1 的
(
i
,
j
)
(i, j)
(i,j) 元素。
通过矩阵和向量的乘法,我们可以知道 ( y − μ ) T Σ − 1 ( y − μ ) ) {(\boldsymbol{y}-\boldsymbol{\mu})^{T}\boldsymbol{\Sigma} ^{-1}(\boldsymbol{y}-\boldsymbol{\mu})}) (y−μ)TΣ−1(y−μ)) 是一个数,熟悉距离概念的小伙伴,会马上意识到这不就是在计算两个向量 y \pmb{y} yyy 和 μ \pmb{\mu} μμμ 之间的马氏距离,当 Σ \pmb{\Sigma} ΣΣΣ 为 I \pmb{I} III 时马氏距离即为欧氏距离。
1.3 从概率密度函数角度观察
- 协方差矩阵的特征值分解
由前面的推导,我们知道高斯随机向量 Y ∼ N p ( μ , Σ ) \boldsymbol{Y}{\sim }N_p(\boldsymbol{\mu} ,\boldsymbol{\Sigma}) Y∼Np(μ,Σ),协方差矩阵 Σ \boldsymbol{\Sigma} Σ 为正定实对称矩阵。而在矩阵论,我们知道任意的 N × N N \times N N×N 实对称矩阵都有 N N N 个线性无关的特征向量。并且这些特征向量都可以正交单位化而得到一组正交且模为1 的向量。故实对称矩阵 Σ \boldsymbol{\Sigma} Σ 可被分解成 Σ = U Λ U T \boldsymbol{\Sigma}=\boldsymbol{U\Lambda} \boldsymbol{U}^{T} Σ=UΛUT。
Σ = U Λ U T = ( u 1 , u 2 , ⋯ , u p ) ( λ 1 0 ⋯ 0 0 λ 2 ⋯ ⋮ ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ λ p ) ( u 1 T u 2 T ⋮ u p T ) = ( u 1 λ 1 , u 2 λ 2 , ⋯ , u p λ p ) ( u 1 T u 2 T ⋮ u p T ) = ∑ i = 1 p u i λ i u i T (1-23) \begin{aligned} \boldsymbol{\Sigma} &= \boldsymbol{U\Lambda} \boldsymbol{U}^T\\ &=(\boldsymbol{u_1},\boldsymbol{u_2},\cdots,\boldsymbol{u_p})\begin{pmatrix} \lambda_1&0&\cdots&0\\ 0&\lambda_2&\cdots&\vdots\\ \vdots&\vdots&\ddots&\vdots\\ 0&0&\cdots&\lambda_p\\ \end{pmatrix} \begin{pmatrix} \boldsymbol{u_1}^T\\ \boldsymbol{u_2}^T\\ \vdots\\ \boldsymbol{u_p}^T \end{pmatrix}\\ &=(\boldsymbol{u_1}\lambda_1, \boldsymbol{u_2}\lambda_2,\cdots,\boldsymbol{u_p}\lambda_p)\begin{pmatrix} \boldsymbol{u_1}^T\\ \boldsymbol{u_2}^T\\ \vdots\\ \boldsymbol{u_p}^T \end{pmatrix}\\ &=\displaystyle\sum_{i=1}^p{\boldsymbol{u_i}\lambda_i\boldsymbol{u_i}^T} \end{aligned} \tag{1-23} Σ=UΛUT=(u1,u2,⋯,up)⎝⎜⎜⎜⎜⎛λ10⋮00λ2⋮0⋯⋯⋱⋯0⋮⋮λp⎠⎟⎟⎟⎟⎞⎝⎜⎜⎜⎛u1Tu2T⋮upT⎠⎟⎟⎟⎞=(u1λ1,u2λ2,⋯,upλp)⎝⎜⎜⎜⎛u1Tu2T⋮upT⎠⎟⎟⎟⎞=i=1∑puiλiuiT(1-23)
则 Σ − 1 \boldsymbol{\Sigma}^{-1} Σ−1 的结果如下,这里特征向量矩阵 U \boldsymbol{U} U 是正交的,因此 U T = U − 1 \boldsymbol{U}^T=\boldsymbol{U}^{-1} UT=U−1。
Σ
−
1
=
(
U
Λ
U
T
)
−
1
=
(
U
T
)
−
1
Λ
−
1
U
−
1
=
U
Λ
−
1
U
T
=
∑
i
=
1
p
u
i
1
λ
i
u
i
T
(1-24)
\boldsymbol{\Sigma}^{-1}=(\boldsymbol{U\Lambda} \boldsymbol{U}^T)^{-1}=(\boldsymbol{U}^T)^{-1}\boldsymbol{\Lambda}^{-1}\boldsymbol{U}^{-1}=\boldsymbol{U\Lambda}^{-1} \boldsymbol{U}^T =\displaystyle\sum_{i=1}^p{\boldsymbol{u_i}{1\over\lambda_i}\boldsymbol{u_i}^T} \tag{1-24}
Σ−1=(UΛUT)−1=(UT)−1Λ−1U−1=UΛ−1UT=i=1∑puiλi1uiT(1-24)
其中,
Λ
−
1
=
d
i
a
g
(
1
λ
i
)
,
i
=
1
,
2
,
⋯
,
p
\Lambda^{-1}=diag(\frac{1}{\lambda _{i}}),i=1,2,\cdots ,p
Λ−1=diag(λi1),i=1,2,⋯,p
把上面的结果带入
(
y
−
μ
)
T
Σ
−
1
(
y
−
μ
)
)
{(\boldsymbol{y}-\boldsymbol{\mu})^{T}\boldsymbol{\Sigma} ^{-1}(\boldsymbol{y}-\boldsymbol{\mu})})
(y−μ)TΣ−1(y−μ)),下面的内容就是化成标准二次型,
Δ = ( x − μ ) T Σ − 1 ( x − μ ) = ( x − μ ) T ∑ i = 1 p u i 1 λ i u i T ( x − μ ) = ∑ i = 1 p ( x − μ ) T u i 1 λ i u i T ( x − μ ) ( 令 y i = ( x − μ ) T u i ) , 此 时 y i 变 为 了 一 个 标 量 , 这 一 步 很 巧 妙 = ∑ i = 1 p y i 1 λ i y i T = ∑ i = 1 p y i 2 λ i (1-25) \begin{aligned} \Delta &=(\boldsymbol{x}-\boldsymbol{\mu} )^{T}\boldsymbol{\Sigma} ^{-1}(\boldsymbol{x}-\boldsymbol{\mu} )\\ &=(\boldsymbol{x}-\boldsymbol{\mu} )^{T}\sum_{i=1}^{p}\boldsymbol{u} _{i}\frac{1}{\lambda _{i}}\boldsymbol{u} _{i}^{T}(\boldsymbol{x}-\boldsymbol{\mu} )\\ &=\sum_{i=1}^{p}(\boldsymbol{x}-\boldsymbol{\mu} )^{T}\boldsymbol{u} _{i}\frac{1}{\lambda _{i}}\boldsymbol{u} _{i}^{T}(x-\mu )\\ &(令y_{i}=(\boldsymbol{x}-\boldsymbol{\mu})^{T}\boldsymbol{u} _{i}) ,此时 y_i 变为了一个标量,这一步很巧妙\\ &=\sum_{i=1}^{p}y_{i}\frac{1}{\lambda _{i}}y_{i}^{T}\\ &=\sum_{i=1}^{p}\frac{y_{i}^{2}}{\lambda _{i}} \end{aligned} \tag{1-25} Δ=(x−μ)TΣ−1(x−μ)=(x−μ)Ti=1∑puiλi1uiT(x−μ)=i=1∑p(x−μ)Tuiλi1uiT(x−μ)(令yi=(x−μ)Tui),此时yi变为了一个标量,这一步很巧妙=i=1∑pyiλi1yiT=i=1∑pλiyi2(1-25)
上式中 y i = ( x − μ ) T u i y_{i}=(x-\mu )^{T}u _{i} yi=(x−μ)Tui 可以理解为将 x x x 减去均值进行中心化以后再投影到 u i u _{i} ui 方向上,相当于做了一次坐标轴变换。
当 x x x 的维度为2,即 p = 2 p = 2 p=2 时 Δ = y 1 2 λ 1 + y 2 2 λ 2 \Delta =\frac{y_{1}^{2}}{\lambda _{1}}+\frac{y_{2}^{2}}{\lambda _{2}} Δ=λ1y12+λ2y22,得到类似椭圆方程的等式,所以也就可以解释为什么其等高线是椭圆形状。
1.4 高斯分布的局限性
1. 参数过多
协方差矩阵
Σ
p
×
p
\pmb{\Sigma} _{p\times p}
ΣΣΣp×p 中的参数共有
1
+
2
+
⋯
+
p
=
p
(
p
+
1
)
2
1+2+\cdots +p=\frac{p(p+1)}{2}
1+2+⋯+p=2p(p+1) 个 (
Σ
p
×
p
\pmb{\Sigma} _{p\times p}
ΣΣΣp×p 是对称矩阵),因此当
x
\pmb{x}
xxx 的维度
p
p
p 很大时,高斯分布的参数就会有很多,其计算复杂度为
O
(
p
2
)
O(p^{2})
O(p2)。
可以通过假设高斯分布的协方差矩阵为对角矩阵来减少参数,当高斯分布的协方差矩阵为对角矩阵时,特征向量的方向就会和原坐标轴的方向平行,因此高斯分布的等高线(同心椭圆)就不会倾斜。
另外如果在高斯分布的协方差矩阵为对角矩阵为对角矩阵的基础上使得其特征值全部相等(即 λ 1 = λ 2 = ⋯ = λ i \lambda _{1}=\lambda _{2}=\cdots=\lambda _{i} λ1=λ2=⋯=λi ),则高斯分布的等高线就会成为一个圆形,而且不会倾斜,称为各向同性。
2. 单个高斯分布拟合能力有限
单个高斯分布是单峰的,对有多个峰的数据分布不能得到好的结果。解决方案:高斯混合GMM 模型。
1.5 已知联合概率求边缘概率及条件概率
1. 将随机向量、均值和方差进行划分
将 y \pmb{y} yyy 分为两部分,一部分为 a a a 维 y a \pmb{y}_a yyya,一部分为 b b b 维 y b \pmb{y}_b yyyb, μ \pmb{\mu} μμμ 和 Σ \pmb{\Sigma} ΣΣΣ 同理,则
y = ( y a y b ) μ = ( μ a μ b ) Σ = ( Σ a a Σ a b Σ b a Σ b b ) ( a + b = p ) (1-26) \pmb{y}=\begin{pmatrix} \pmb{y}_a\\ \pmb{y}_b\\ \end{pmatrix} \quad \pmb{\mu}=\begin{pmatrix} \pmb{\mu}_a\\ \pmb{\mu}_b\\ \end{pmatrix} \quad \pmb{\Sigma}=\begin{pmatrix} \pmb{\Sigma}_{aa}& \pmb{\Sigma}_{ab}\\ \pmb{\Sigma}_{ba}& \pmb{\Sigma}_{bb}\\ \end{pmatrix} \quad (a+b=p)\tag{1-26} yyy=(yyyayyyb)μμμ=(μμμaμμμb)ΣΣΣ=(ΣΣΣaaΣΣΣbaΣΣΣabΣΣΣbb)(a+b=p)(1-26)
将 y \pmb{y} yyy 看为 y a \pmb{y}_a yyya 和 y b \pmb{y}_b yyyb 的联合概率分布,求 P ( y a ) , P ( y b ∣ y a ) P(\pmb{y}_a),P(\pmb{y}_b|\pmb{y}_a) P(yyya),P(yyyb∣yyya),同理可由对称性得知 P ( y b ) , P ( y a ∣ y b ) P(\pmb{y}_b),P(\pmb{y}_a|\pmb{y}_b) P(yyyb),P(yyya∣yyyb),通用方法配方法,详细过程可以参考《Pattern Recognition and Machine Learning》,这里使用另外一种简便方法。
先引入一个常用定理,就是均值向量和协方差矩阵的性质,即
已知:
Y
∼
N
(
μ
,
Σ
)
,
y
∈
R
p
Z
=
A
Y
+
B
,
z
∈
R
q
(1-27)
\pmb{Y}\sim N(\pmb{\mu} ,\pmb{\Sigma}),\pmb{y} \in \mathbb{R}^{p}\\ \pmb{Z}=\pmb{AY}+\pmb{B},\pmb{z}\in \mathbb{R}^{q} \tag{1-27}
YYY∼N(μμμ,ΣΣΣ),yyy∈RpZZZ=AYAYAY+BBB,zzz∈Rq(1-27)
结论:
Z
∼
N
(
A
μ
+
B
,
A
Σ
A
T
)
(1-28)
\pmb{Z}\sim N(\pmb{A\mu} +\pmb{B},\pmb{A\Sigma A}^{T})\tag{1-28}
ZZZ∼N(AμAμAμ+BBB,AΣAAΣAAΣAT)(1-28)
一个简单但不严谨的证明(就是利用我们熟悉的期望和方差的性质):
E
[
Z
]
=
E
[
A
Y
+
B
]
=
A
E
[
Y
]
+
B
=
A
μ
+
B
D
[
Z
]
=
D
[
A
Y
+
B
]
=
D
[
A
Y
]
+
D
[
B
]
=
A
D
[
Y
]
A
T
+
0
=
A
Σ
A
T
(1-29)
E[\pmb{Z}]=E[\pmb{AY}+\pmb{B}]=\pmb{A}E[\pmb{Y}]+\pmb{B}=\pmb{A\mu} +\pmb{B}\\ \quad \\ \begin{aligned}D[\pmb{Z}] &=D[\pmb{AY}+\pmb{B}]\\ &=D[\pmb{AY}]+D[\pmb{B}]\\ &=\pmb{A}D[\pmb{Y}]\pmb{A}^{T}+0\\ &=\pmb{A\Sigma A}^{T}\end{aligned} \tag{1-29}
E[ZZZ]=E[AYAYAY+BBB]=AAAE[YYY]+BBB=AμAμAμ+BBBD[ZZZ]=D[AYAYAY+BBB]=D[AYAYAY]+D[BBB]=AAAD[YYY]AAAT+0=AΣAAΣAAΣAT(1-29)
2. 求边缘概率 P ( y a ) P(\pmb{y}_a) P(yyya)
令 y a = ( I m 0 n ) ⏟ A ( y a y b ) ⏟ y + 0 ⏟ B \pmb{y}_a=\underbrace{\begin{pmatrix} \pmb{I}_m&\pmb{0}_n \end{pmatrix}}_{\boldsymbol{A}} \underbrace{\begin{pmatrix} \pmb{y}_a\\ \pmb{y}_b \end{pmatrix}}_{\boldsymbol{y}}+\underbrace \boldsymbol{0}_{\boldsymbol{B}} yyya=A (IIIm000n)y (yyyayyyb)+B 0
使用上述定理的结论,则:
E
[
y
a
]
=
A
μ
+
B
=
(
I
m
0
)
(
μ
a
μ
b
)
+
0
=
μ
a
(1-30)
E[\pmb{y}_a]=\pmb{A\mu}+\pmb{B}=\begin{pmatrix}\pmb{I}_m&0 \end{pmatrix}\begin{pmatrix}\pmb{\mu}_a\\ \pmb{\mu}_b\end{pmatrix}+0 =\pmb{\mu}_a \tag{1-30}
E[yyya]=AμAμAμ+BBB=(IIIm0)(μμμaμμμb)+0=μμμa(1-30)
D
[
y
a
]
=
A
Σ
A
T
=
(
I
m
0
)
(
Σ
a
a
Σ
a
b
Σ
b
a
Σ
b
b
)
(
I
m
0
)
=
(
Σ
a
a
Σ
a
b
)
(
I
m
0
)
=
Σ
a
a
(1-31)
D[\boldsymbol{y}_a]=\boldsymbol{A\Sigma A}^T=\begin{pmatrix}\boldsymbol{I}_m&0 \end{pmatrix} \begin{pmatrix} \boldsymbol{\Sigma}_{aa}&\boldsymbol{\Sigma}_{ab}\\ \boldsymbol{\Sigma}_{ba}&\boldsymbol{\Sigma}_{bb}\\ \end{pmatrix} \begin{pmatrix}\boldsymbol{I}_m\\\boldsymbol{0} \end{pmatrix}= \begin{pmatrix}\boldsymbol{\Sigma}_{aa}&\boldsymbol{\Sigma}_{ab} \end{pmatrix}\begin{pmatrix}\boldsymbol{I}_m\\\boldsymbol{0} \end{pmatrix}=\boldsymbol{\Sigma}_{aa}\tag{1-31}
D[ya]=AΣAT=(Im0)(ΣaaΣbaΣabΣbb)(Im0)=(ΣaaΣab)(Im0)=Σaa(1-31)
所以
y
a
∼
N
(
μ
a
,
Σ
a
a
)
\boldsymbol{y}_{a}\sim N(\boldsymbol{\mu} _{a},\boldsymbol{\Sigma} _{aa})
ya∼N(μa,Σaa),同理
y
b
∼
N
(
μ
b
,
Σ
b
b
)
\boldsymbol{y}_{b}\sim N(\boldsymbol{\mu} _{b},\boldsymbol{\Sigma} _{bb})
yb∼N(μb,Σbb)
3. 求条件概率 P ( y b ∣ y a ) P(\pmb{y}_b|\pmb{y}_a) P(yyyb∣yyya)
构造 { y b ⋅ a = y b − Σ b a Σ a a − 1 y a μ b ⋅ a = μ b − Σ b a Σ a a − 1 μ a Σ b b ⋅ a = Σ b b − Σ b a Σ a a − 1 Σ a b \begin{cases} \pmb{y}_{b\cdot a}=\pmb{y}_b-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\pmb{y}_a \\ \pmb{\mu}_{b\cdot a}=\pmb{\mu}_b-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\pmb{\mu}_a \\ \pmb{\Sigma}_{bb\cdot a}=\pmb{\Sigma}_{bb}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\pmb{\Sigma}_{ab} \end{cases} ⎩⎪⎨⎪⎧yyyb⋅a=yyyb−ΣΣΣbaΣΣΣaa−1yyyaμμμb⋅a=μμμb−ΣΣΣbaΣΣΣaa−1μμμaΣΣΣbb⋅a=ΣΣΣbb−ΣΣΣbaΣΣΣaa−1ΣΣΣab
这里 Σ b b ⋅ a \pmb{\Sigma}_{bb\cdot a} ΣΣΣbb⋅a 是 Σ b b \pmb{\Sigma}_{bb} ΣΣΣbb 的 Schur Complementary
y
b
⋅
a
\pmb{y}_{b\cdot a}
yyyb⋅a 是
y
b
\pmb{y}_{b}
yyyb 与
y
a
\pmb{y}_{a}
yyya 的线性组合,故其服从高斯分布
(1)求
Σ
b
b
⋅
a
\pmb{\Sigma}_{bb\cdot a}
ΣΣΣbb⋅a 的概率分布函数
先对
Σ
b
b
⋅
a
\pmb{\Sigma}_{bb\cdot a}
ΣΣΣbb⋅a 进行变换,使其能够应用上述定理直接得出结果
y
b
⋅
a
=
(
−
Σ
b
a
Σ
a
a
−
1
I
)
⏟
A
(
y
a
y
b
)
⏟
y
(1-32)
\pmb{y}_{b\cdot a}=\underbrace{\begin{pmatrix}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}& \pmb{I} \end{pmatrix}}_{\boldsymbol{A}} \underbrace{\begin{pmatrix} \pmb{y}_a\\\pmb{y}_b \end{pmatrix}}_{\boldsymbol{y}}\tag{1-32}
yyyb⋅a=A
(−ΣΣΣbaΣΣΣaa−1III)y
(yyyayyyb)(1-32)
使用上述定理得:
E
[
y
b
⋅
a
]
=
(
−
Σ
b
a
Σ
a
a
−
1
I
)
(
μ
a
μ
b
)
=
μ
b
−
Σ
b
a
Σ
a
a
−
1
μ
a
=
μ
b
⋅
a
(1-33)
E[\pmb{y}_{b\cdot a}]=\begin{pmatrix}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}& \pmb{I} \end{pmatrix}\begin{pmatrix} \pmb{\mu}_a\\ \pmb{\mu}_b \end{pmatrix} =\pmb{\mu}_b-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\pmb{\mu}_a=\pmb{\mu}_{b\cdot a}\tag{1-33}
E[yyyb⋅a]=(−ΣΣΣbaΣΣΣaa−1III)(μμμaμμμb)=μμμb−ΣΣΣbaΣΣΣaa−1μμμa=μμμb⋅a(1-33)
D [ y b ⋅ a ] = ( − Σ b a Σ a a − 1 I ) ( Σ a a Σ a b Σ b a Σ b b ) ( − Σ b a Σ a a − 1 I ) = ( Σ b a − Σ b a Σ a a − 1 Σ a a Σ b b − Σ b a Σ a a − 1 Σ a b ) ( − Σ b a Σ a a − 1 I ) = ( 0 Σ b b − Σ b a Σ a a − 1 Σ a b ) ( − Σ b a Σ a a − 1 I ) = Σ b b − Σ b a Σ a a − 1 Σ a b = Σ b b ⋅ a (1-34) \begin{aligned} D[\pmb{y}_{b\cdot a}]&=\begin{pmatrix}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}& \pmb{I} \end{pmatrix}\begin{pmatrix} \pmb{\Sigma}_{aa}& \pmb{\Sigma}_{ab}\\ \pmb{\Sigma}_{ba}& \pmb{\Sigma}_{bb}\\ \end{pmatrix} \begin{pmatrix}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\\ \pmb{I} \end{pmatrix}\\ &=\begin{pmatrix} \pmb{\Sigma}_{ba}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\pmb{\Sigma}_{aa} &\pmb{\Sigma}_{bb}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\pmb{\Sigma}_{ab} \end{pmatrix} \begin{pmatrix}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\\\pmb{I} \end{pmatrix}\\ &=\begin{pmatrix} \pmb{0} & \pmb{\Sigma}_{bb}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\pmb{\Sigma}_{ab} \end{pmatrix} \begin{pmatrix}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\\ \pmb{I} \end{pmatrix}\\ &=\pmb{\Sigma}_{bb}-\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\pmb{\Sigma}_{ab}\\ &=\pmb{\Sigma}_{bb\cdot a} \end{aligned}\tag{1-34} D[yyyb⋅a]=(−ΣΣΣbaΣΣΣaa−1III)(ΣΣΣaaΣΣΣbaΣΣΣabΣΣΣbb)(−ΣΣΣbaΣΣΣaa−1III)=(ΣΣΣba−ΣΣΣbaΣΣΣaa−1ΣΣΣaaΣΣΣbb−ΣΣΣbaΣΣΣaa−1ΣΣΣab)(−ΣΣΣbaΣΣΣaa−1III)=(000ΣΣΣbb−ΣΣΣbaΣΣΣaa−1ΣΣΣab)(−ΣΣΣbaΣΣΣaa−1III)=ΣΣΣbb−ΣΣΣbaΣΣΣaa−1ΣΣΣab=ΣΣΣbb⋅a(1-34)
因此可以得到
y
b
⋅
a
∼
N
(
μ
b
⋅
a
,
Σ
b
b
⋅
a
)
\pmb{y}_{b\cdot a}\sim N(\pmb{\mu} _{b\cdot a},\pmb{\Sigma} _{bb\cdot a})
yyyb⋅a∼N(μμμb⋅a,ΣΣΣbb⋅a)。根据
y
b
\pmb{y}_{b}
yyyb 与
y
b
⋅
a
\pmb{y}_{b\cdot a}
yyyb⋅a 的关系可以得到
y
b
∣
y
a
\pmb{y}_{b}|\pmb{y}_{a}
yyyb∣yyya 的分布:
由第一个引入的量可以得到:
y
b
=
y
b
⋅
a
⏟
y
+
Σ
b
a
Σ
a
a
−
1
y
a
⏟
B
(1-35)
\pmb{y}_{b}=\underset{\boldsymbol{y}}{\underbrace{\pmb{y}_{b\cdot a}}}+\underset{\boldsymbol{B}}{\underbrace{\pmb{\Sigma} _{ba}\pmb{\Sigma} _{aa}^{-1}\pmb{y}_{a}}} \tag{1-35}
yyyb=y
yyyb⋅a+B
ΣΣΣbaΣΣΣaa−1yyya(1-35)
在求条件概率 P ( y b ∣ y a ) P(\pmb{y}_{b}| \pmb{y}_{a}) P(yyyb∣yyya) 时 y a \pmb{y}_{a} yyya 对于 y b \pmb{y}_{b} yyyb 来说可以看做已知,因此上式中 Σ b a Σ a a − 1 y a \pmb{\Sigma} _{ba} \pmb{\Sigma} _{aa}^{-1} \pmb{y}_{a} ΣΣΣbaΣΣΣaa−1yyya 看做常量 B \pmb{B} BBB。下面直接使用 y b \pmb{y}_{b} yyyb 的表达式计算 y b ∣ y a \pmb{y}_{b}| \pmb{y}_{a} yyyb∣yyya ,原因是条件概率的含义为在已知 y a \pmb{y}_{a} yyya 的条件下求 y b \pmb{y}_{b} yyyb 的概率,因此这里假设 y a \pmb{y}_{a} yyya 已知,作为常量处理了。
此处同样利用上述定理,可以求得:
E
[
y
b
∣
y
a
]
=
μ
b
⋅
a
+
Σ
b
a
Σ
a
a
−
1
y
a
D
[
y
b
∣
y
a
]
=
D
[
y
b
⋅
a
]
=
Σ
b
b
⋅
a
(1-36)
E[\pmb{y}_b|\pmb{y}_a]=\pmb{\mu}_{b\cdot a}+\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\pmb{y}_a\\ \quad \\ D[\pmb{y}_b|\pmb{y}_a]=D[\pmb{y}_{b\cdot a}] = \pmb{\Sigma}_{bb\cdot a}\tag{1-36}
E[yyyb∣yyya]=μμμb⋅a+ΣΣΣbaΣΣΣaa−1yyyaD[yyyb∣yyya]=D[yyyb⋅a]=ΣΣΣbb⋅a(1-36)
因此
y
b
∣
y
a
∼
N
(
μ
b
⋅
a
+
Σ
b
a
Σ
a
a
−
1
y
a
,
Σ
b
b
⋅
a
)
\pmb{y}_b|\pmb{y}_a\sim N(\pmb{\mu}_{b\cdot a}+\pmb{\Sigma}_{ba}\pmb{\Sigma}_{aa}^{-1}\pmb{y}_a,\pmb{\Sigma}_{bb\cdot a})
yyyb∣yyya∼N(μμμb⋅a+ΣΣΣbaΣΣΣaa−1yyya,ΣΣΣbb⋅a)
利用对称性求另外两个量
y
b
∼
N
(
μ
b
,
Σ
b
b
)
(1-37)
\pmb{y}_b\sim N(\pmb{\mu}_b,\pmb{\Sigma}_{bb})\tag{1-37}
yyyb∼N(μμμb,ΣΣΣbb)(1-37)
y
a
∣
y
b
∼
N
(
μ
a
⋅
b
+
Σ
a
b
Σ
b
b
−
1
x
b
,
Σ
a
a
⋅
b
)
(1-38)
\pmb{y}_a|\pmb{y}_b\sim N(\pmb{\mu}_{a\cdot b}+\pmb{\Sigma}_{ab}\pmb{\Sigma}_{bb}^{-1}x_b,\pmb{\Sigma}_{aa\cdot b}) \tag{1-38}
yyya∣yyyb∼N(μμμa⋅b+ΣΣΣabΣΣΣbb−1xb,ΣΣΣaa⋅b)(1-38)
1.6 已知边缘和条件概率求联合概率分布
上一节是已知一个多维高斯分布的联合概率,求其边缘概率分布及条件概率分布。而本节是已知
{
y
∼
N
(
μ
,
Λ
−
1
)
z
∣
y
∼
N
(
A
y
+
b
,
L
−
1
)
(1-39)
\begin{cases} \pmb{y} \sim N(\pmb{\mu},\pmb{\Lambda}^{-1}) \\ \quad \\ \pmb{z}|\pmb{y} \sim N(\pmb{Ay}+\pmb{b},\pmb{L}^{-1}) \end{cases} \tag{1-39}
⎩⎪⎨⎪⎧yyy∼N(μμμ,ΛΛΛ−1)zzz∣yyy∼N(AyAyAy+bbb,LLL−1)(1-39)
其中,
Λ
−
1
、
L
−
1
\pmb{\Lambda}^{-1}、\pmb{L}^{-1}
ΛΛΛ−1、LLL−1 是精度矩阵(precision matrix
),即
p
r
e
c
i
s
i
o
n
m
a
t
r
i
x
=
(
c
o
n
v
a
r
i
a
n
c
e
m
a
t
r
i
x
)
−
1
precision \ matrix=(convariance \ matrix)^{-1}
precision matrix=(convariance matrix)−1
这部分内容依然可以使用配方法推导,详细过程可以参考《Pattern Recognition and Machine Learning》,下面我们还采用构造性证明。
1. 求解
P
(
z
)
P(\pmb{z})
P(zzz)
上面的式子,我们知道
z
\pmb{z}
zzz 与
y
\pmb{y}
yyy 有线性关系
z
=
A
y
+
b
\pmb{z} = \pmb{Ay}+\pmb{b}
zzz=AyAyAy+bbb,即
z
\pmb{z}
zzz 与
y
\pmb{y}
yyy 的关系为线性高斯模型,则
z
\pmb{z}
zzz 与
y
\pmb{y}
yyy 符合下述关系:
z
=
A
y
+
b
+
ϵ
(1-40)
\pmb{z} = \pmb{Ay}+\pmb{b}+\pmb{\epsilon} \tag{1-40}
zzz=AyAyAy+bbb+ϵϵϵ(1-40)
其中,
y
、
z
、
ϵ
\pmb{y}、\pmb{z}、\pmb{\epsilon}
yyy、zzz、ϵϵϵ 都是随机变量,
ϵ
∼
N
(
0
,
L
−
1
)
\pmb{\epsilon}\sim N(0,\pmb{L}^{-1})
ϵϵϵ∼N(0,LLL−1) 且与
y
\pmb{y}
yyy 独立。
所以,
E
[
z
]
=
E
[
A
y
+
b
+
ϵ
]
=
A
E
[
y
]
+
b
+
E
[
ϵ
]
=
A
μ
+
b
D
[
z
]
=
D
[
A
y
+
b
+
ϵ
]
=
D
[
A
y
+
b
]
+
D
[
ϵ
]
(1-41)
E[\pmb{z}]=E[\pmb{Ay}+\pmb{b}+\pmb{\epsilon}]=\pmb{A}E[\pmb{y}]+\pmb{b}+E[\pmb{\epsilon}]=\pmb{A\mu}+\pmb{b} \\ \quad \\ D[\pmb{z}]=D[\pmb{Ay}+\pmb{b}+\pmb{\epsilon}]=D[\pmb{Ay}+\pmb{b}]+D[\pmb{\epsilon}] \tag{1-41}
E[zzz]=E[AyAyAy+bbb+ϵϵϵ]=AAAE[yyy]+bbb+E[ϵϵϵ]=AμAμAμ+bbbD[zzz]=D[AyAyAy+bbb+ϵϵϵ]=D[AyAyAy+bbb]+D[ϵϵϵ](1-41)
利用式子(1-28)的结论可以求得:
D
[
A
y
+
b
]
=
A
D
[
y
]
A
T
=
A
Λ
−
1
A
T
D[\pmb{Ay}+\pmb{b}]=\pmb{A}D[\pmb{y}]\pmb{A}^T=\pmb{A}\pmb{\Lambda}^{-1} \pmb{A}^T
D[AyAyAy+bbb]=AAAD[yyy]AAAT=AAAΛΛΛ−1AAAT
因此:
D
[
z
]
=
A
Λ
−
1
A
T
+
L
−
1
D[\pmb{z}]=\pmb{A\Lambda}^{-1}\pmb{A}^T+\pmb{L}^{-1}
D[zzz]=AΛAΛAΛ−1AAAT+LLL−1
所以:
z
∼
N
(
A
μ
+
b
,
A
Λ
−
1
A
T
+
L
−
1
)
(1-42)
\pmb{z}\sim N(\pmb{A\mu}+\pmb{b},\pmb{A\Lambda}^{-1}\pmb{A}^T+\pmb{L}^{-1}) \tag{1-42}
zzz∼N(AμAμAμ+bbb,AΛAΛAΛ−1AAAT+LLL−1)(1-42)
2. 求解
P
(
y
∣
z
)
P(\pmb{y}|\pmb{z})
P(yyy∣zzz)
对于此问题,可以使用上一节的结论进行求解,即先求出联合概率分布,再求此条件概率
构造
w
=
(
y
z
)
\pmb{w}=\begin{pmatrix}\pmb{y}\\\pmb{z} \end{pmatrix}
www=(yyyzzz),则可以得到:
E
[
w
]
=
(
μ
A
μ
+
b
)
D
[
w
]
=
(
c
o
v
(
y
,
y
)
c
o
v
(
y
,
z
)
c
o
v
(
z
,
y
)
c
o
v
(
z
,
z
)
)
=
(
Λ
−
1
c
o
v
(
y
,
z
)
c
o
v
(
z
,
y
)
L
−
1
+
A
Λ
−
1
A
T
)
(1-43)
\begin{aligned} E[\pmb{w}] &=\begin{pmatrix}\pmb{\mu}\\ \pmb{A\mu}+\pmb{b} \end{pmatrix}\\ \quad \\ D[\pmb{w}] &=\begin{pmatrix} cov(\pmb{y},\pmb{y})&cov(\pmb{y},\pmb{z})\\ cov(\pmb{z},\pmb{y})&cov(\pmb{z},\pmb{z}) \end{pmatrix} =\begin{pmatrix} \pmb{\Lambda}^{-1}&cov(\pmb{y},\pmb{z})\\ cov(\pmb{z},\pmb{y})& \pmb{L}^{-1}+\pmb{A\Lambda}^{-1}\pmb{A}^T \end{pmatrix} \end{aligned} \tag{1-43}
E[www]D[www]=(μμμAμAμAμ+bbb)=(cov(yyy,yyy)cov(zzz,yyy)cov(yyy,zzz)cov(zzz,zzz))=(ΛΛΛ−1cov(zzz,yyy)cov(yyy,zzz)LLL−1+AΛAΛAΛ−1AAAT)(1-43)
其中
c
o
v
(
y
,
z
)
=
E
[
(
y
−
E
[
y
]
)
⋅
(
z
−
E
[
z
]
)
T
]
=
E
[
(
y
−
μ
)
⋅
(
A
y
+
b
+
ϵ
−
A
μ
−
b
)
T
]
=
E
[
(
y
−
μ
)
⋅
(
A
y
−
A
μ
+
ϵ
)
T
]
=
E
[
(
y
−
μ
)
⋅
(
A
y
−
A
μ
)
T
+
(
y
−
μ
)
⋅
ϵ
T
]
=
E
[
(
y
−
μ
)
(
y
−
μ
)
T
A
T
]
+
E
[
(
y
−
μ
)
ϵ
T
]
(1-44)
\begin{aligned} cov(\pmb{y},\pmb{z})&=E[(\pmb{y}-E[\pmb{y}])\cdot (\pmb{z}-E[\pmb{z}])^T]\\ &=E[(\pmb{y}-\pmb{\mu})\cdot (\pmb{Ay}+\pmb{b}+\pmb{\epsilon}-\pmb{A\mu}-\pmb{b})^T]\\ &=E[(\pmb{y}-\pmb{\mu})\cdot (\pmb{Ay}-\pmb{A\mu}+\pmb{\epsilon})^T]\\ &=E[(\pmb{y}-\pmb{\mu})\cdot(\pmb{Ay}-\pmb{A\mu})^T+(\pmb{y}-\pmb{\mu})\cdot\pmb{\epsilon}^T]\\ &=E[(\pmb{y}-\pmb{\mu})(\pmb{y}-\pmb{\mu})^T\pmb{A}^T]+E[(\pmb{y}-\pmb{\mu})\pmb{\epsilon}^T] \end{aligned} \tag{1-44}
cov(yyy,zzz)=E[(yyy−E[yyy])⋅(zzz−E[zzz])T]=E[(yyy−μμμ)⋅(AyAyAy+bbb+ϵϵϵ−AμAμAμ−bbb)T]=E[(yyy−μμμ)⋅(AyAyAy−AμAμAμ+ϵϵϵ)T]=E[(yyy−μμμ)⋅(AyAyAy−AμAμAμ)T+(yyy−μμμ)⋅ϵϵϵT]=E[(yyy−μμμ)(yyy−μμμ)TAAAT]+E[(yyy−μμμ)ϵϵϵT](1-44)
因为
y
\pmb{y}
yyy 与
ϵ
\pmb{\epsilon}
ϵϵϵ 独立,所以
y
−
μ
\pmb{y}-\pmb{\mu}
yyy−μμμ 与
ϵ
\pmb{\epsilon}
ϵϵϵ 独立,因此
E
[
(
y
−
μ
)
ϵ
T
]
=
E
[
y
−
μ
]
⋅
E
[
ϵ
T
]
=
(
E
[
y
]
−
μ
)
E
[
ϵ
T
]
=
0
(1-45)
E[(\pmb{y}-\pmb{\mu})\pmb{\epsilon}^T]=E[\pmb{y}-\pmb{\mu}]\cdot E[\pmb{\epsilon}^T]=(E[\pmb{y}]-\pmb{\mu})E[\pmb{\epsilon}^T]=0 \tag{1-45}
E[(yyy−μμμ)ϵϵϵT]=E[yyy−μμμ]⋅E[ϵϵϵT]=(E[yyy]−μμμ)E[ϵϵϵT]=0(1-45)
所以,
c
o
v
(
y
,
z
)
=
E
[
(
y
−
μ
)
(
y
−
μ
)
T
A
T
]
=
E
[
(
y
−
μ
)
(
y
−
μ
)
T
]
A
T
=
D
[
y
]
A
T
=
Λ
−
1
A
T
(1-46)
\begin{aligned} cov(\pmb{y},\pmb{z})&=E[(\pmb{y}-\pmb{\mu})(\pmb{y}-\pmb{\mu})^T\pmb{A}^T] \\&=E[(\pmb{y}-\pmb{\mu})(\pmb{y}-\pmb{\mu})^T]\pmb{A}^T\\ &=D[\pmb{y}]\pmb{A}^T\\ &=\pmb{\Lambda}^{-1}\pmb{A}^T \end{aligned} \tag{1-46}
cov(yyy,zzz)=E[(yyy−μμμ)(yyy−μμμ)TAAAT]=E[(yyy−μμμ)(yyy−μμμ)T]AAAT=D[yyy]AAAT=ΛΛΛ−1AAAT(1-46)
由对称性得:
c
o
v
(
z
,
y
)
=
A
Λ
−
1
cov(\pmb{z},\pmb{y})=\pmb{A}\pmb{\Lambda}^{-1}
cov(zzz,yyy)=AAAΛΛΛ−1
因此,
D
[
z
]
=
(
Λ
−
1
Λ
−
1
A
T
A
Λ
−
1
L
−
1
+
A
Λ
−
1
A
T
)
(1-47)
D[\pmb{z}] =\begin{pmatrix} \pmb{\Lambda}^{-1}&\pmb{\Lambda}^{-1}\pmb{A}^T\\ \pmb{A}\pmb{\Lambda}^{-1}&\pmb{L}^{-1}+\pmb{A}\pmb{\Lambda}^{-1}\pmb{A}^T \end{pmatrix}\tag{1-47}
D[zzz]=(ΛΛΛ−1AAAΛΛΛ−1ΛΛΛ−1AAATLLL−1+AAAΛΛΛ−1AAAT)(1-47)
所以,
z
∼
N
(
(
μ
A
μ
+
b
)
,
(
Λ
−
1
Λ
−
1
A
T
A
Λ
−
1
L
−
1
+
A
Λ
−
1
A
T
)
)
(1-48)
\pmb{z} \sim N(\begin{pmatrix}\pmb{\mu}\\\pmb{A\mu}+\pmb{b} \end{pmatrix},\begin{pmatrix} \pmb{\Lambda}^{-1}&\pmb{\Lambda}^{-1}\pmb{A}^T\\ \pmb{A\Lambda}^{-1}&\pmb{L}^{-1}+\pmb{A\Lambda}^{-1}\pmb{A}^T \end{pmatrix})\tag{1-48}
zzz∼N((μμμAμAμAμ+bbb),(ΛΛΛ−1AΛAΛAΛ−1ΛΛΛ−1AAATLLL−1+AΛAΛAΛ−1AAAT))(1-48)
使用上节式子(1-38)的结论,可以得到:
E
[
y
∣
z
]
=
μ
+
Λ
−
1
A
T
(
L
−
1
+
A
Λ
−
1
A
T
)
−
1
(
z
−
A
μ
−
b
)
D
[
y
∣
z
]
=
Λ
−
1
−
Λ
−
1
A
T
(
L
−
1
+
A
Λ
−
1
A
T
)
−
1
A
Λ
−
1
(1-49)
E[\pmb{y}|\pmb{z}]=\pmb{\mu} + \pmb{\Lambda}^{-1}\pmb{A}^T(\pmb{L}^{-1}+\pmb{A\Lambda}^{-1}\pmb{A}^T)^{-1}(\pmb{z}-\pmb{A\mu}-\pmb{b})\\ \quad \\ D[\pmb{y}|\pmb{z}]=\pmb{\Lambda}^{-1}-\pmb{\Lambda}^{-1}\pmb{A}^T(\pmb{L}^{-1}+\pmb{A\Lambda}^{-1}\pmb{A}^T)^{-1}\pmb{A\Lambda}^{-1}\tag{1-49}
E[yyy∣zzz]=μμμ+ΛΛΛ−1AAAT(LLL−1+AΛAΛAΛ−1AAAT)−1(zzz−AμAμAμ−bbb)D[yyy∣zzz]=ΛΛΛ−1−ΛΛΛ−1AAAT(LLL−1+AΛAΛAΛ−1AAAT)−1AΛAΛAΛ−1(1-49)
因此,得到最终结果:
y
∣
z
∼
N
(
μ
+
Λ
−
1
A
T
(
L
−
1
+
A
Λ
−
1
A
T
)
−
1
(
z
−
A
μ
−
b
)
,
Λ
−
1
−
Λ
−
1
A
T
(
L
−
1
+
A
Λ
−
1
A
T
)
−
1
A
Λ
−
1
)
(1-50)
\pmb{y}|\pmb{z} \sim N(\pmb{\mu} + \pmb{\Lambda}^{-1}\pmb{A}^T(\pmb{L}^{-1}+\pmb{A\Lambda}^{-1}\pmb{A}^T)^{-1}(\pmb{z}-\pmb{A\mu}-\pmb{b}),\pmb{\Lambda}^{-1}-\pmb{\Lambda}^{-1}\pmb{A}^T(\pmb{L}^{-1}+\pmb{A\Lambda}^{-1}\pmb{A}^T)^{-1}\pmb{A\Lambda}^{-1})\tag{1-50}
yyy∣zzz∼N(μμμ+ΛΛΛ−1AAAT(LLL−1+AΛAΛAΛ−1AAAT)−1(zzz−AμAμAμ−bbb),ΛΛΛ−1−ΛΛΛ−1AAAT(LLL−1+AΛAΛAΛ−1AAAT)−1AΛAΛAΛ−1)(1-50)
参考
- 机器学习-白板推导系列(二)-数学基础笔记:https://zhuanlan.zhihu.com/p/290876484
- 机器学习-白板推导系列笔记(二)-数学基础:https://blog.csdn.net/qq_41485273/article/details/111761092
- 机器学习-白板推导系列笔记:https://github.com/tsyw/MachineLearningNotes
- 【机器学习】【白板推导系列】:https://www.bilibili.com/video/av70839977/