白板推导系列(第二节)
内容来源于b站up主shuhuai008
高斯分布介绍
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由棣莫弗(Abraham de Moivre)在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
一元高斯分布的概率密度函数为:
f
(
x
)
=
1
2
π
σ
e
−
(
x
−
μ
)
2
2
σ
2
f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}
f(x)=2πσ1e−2σ2(x−μ)2,高维高斯分布概率密度函数为:
g
(
X
)
=
1
(
2
π
)
d
2
∥
Σ
∥
1
2
e
−
1
2
(
x
−
u
)
T
Σ
−
1
(
x
−
u
)
g(\boldsymbol{X})=\frac{1}{(2 \pi)^{\frac{d}{2}}\|\Sigma\|^{\frac{1}{2}}} e^{-\frac{1}{2}(x-u)^{T} \Sigma^{-1}(x-u)}
g(X)=(2π)2d∥Σ∥211e−21(x−u)TΣ−1(x−u), 文章里有详细讲解。
高斯分布的极大似然估计
先观察一维的高斯分布情况,高维情况可以直接推广。假设样本
X
=
(
x
1
,
x
2
,
x
3
,
…
,
x
n
)
X=(x_1, x_2, x_3, \dots,x_n)
X=(x1,x2,x3,…,xn)是独立同分布与高斯分布
N
(
μ
,
σ
2
)
N(\mu, \sigma^{2})
N(μ,σ2), 对其做一个最大似然估计有:
l
o
g
P
(
X
∣
θ
)
=
l
o
g
∏
i
=
1
n
P
(
x
i
∣
θ
)
=
∑
i
=
1
n
l
o
g
P
(
x
i
∣
θ
)
=
∑
i
[
−
(
x
i
−
μ
)
2
2
σ
2
−
l
o
g
2
π
σ
]
=
−
L
(
μ
,
σ
)
logP(X|\theta)=log\prod_{i=1}^{n}P(x_{i}|\theta)=\sum_{i=1}^{n}logP(x_{i}|\theta)=\sum_{i}[-\frac{(x_i-\mu)^{2}}{2\sigma^{2}}-log\sqrt{2\pi}\sigma]=-L(\mu,\sigma)
logP(X∣θ)=log∏i=1nP(xi∣θ)=∑i=1nlogP(xi∣θ)=∑i[−2σ2(xi−μ)2−log2πσ]=−L(μ,σ)
从而利用极大似然估计可得:
μ
M
L
E
=
a
r
g
m
a
x
μ
L
(
μ
,
σ
)
=
a
r
g
m
a
x
μ
∑
i
−
(
x
i
−
μ
)
2
2
σ
2
=
a
r
g
m
i
n
μ
∑
i
(
x
i
−
μ
)
2
2
σ
2
\mu_{MLE}=\underset{\mu}{argmax}L(\mu,\sigma)=\underset{\mu}{argmax}\sum_{i}-\frac{(x_i-\mu)^{2}}{2\sigma^{2}}=\underset{\mu}{argmin}\sum_{i}\frac{(x_i-\mu)^{2}}{2\sigma^{2}}
μMLE=μargmaxL(μ,σ)=μargmax∑i−2σ2(xi−μ)2=μargmin∑i2σ2(xi−μ)2
求其极值,对
μ
求
导
\mu求导
μ求导有
∂
∂
μ
(
∑
i
(
x
i
−
μ
)
2
2
σ
2
)
=
−
∑
i
(
x
i
2
−
μ
)
σ
2
=
0
\frac{\partial}{\partial \mu}\left(\sum_{i} \frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}\right)=-\sum_{i} \frac{\left(x_{i}^{2}-\mu\right)}{\sigma^{2}}=0
∂μ∂(i∑2σ2(xi−μ)2)=−i∑σ2(xi2−μ)=0
μ
M
L
E
=
1
n
∑
i
x
i
\mu_{MLE}=\frac{1}{n}\sum_{i}x_i
μMLE=n1i∑xi
下面用同样方法求
σ
\sigma
σ的极大似然估计:
σ
M
L
E
=
a
r
g
m
a
x
σ
L
(
μ
,
σ
)
=
a
r
g
m
a
x
σ
∑
i
[
(
x
i
−
μ
)
2
2
σ
2
+
log
σ
+
log
2
π
]
=
a
r
g
m
i
n
σ
∑
i
[
(
x
i
−
μ
)
2
2
σ
2
+
log
σ
]
\begin{aligned} \sigma_{MLE} &=\underset{\sigma}{argmax}L(\mu, \sigma)=\underset{\sigma}{argmax} \sum_{i}\left[\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}+\log \sigma+\log \sqrt{2 \pi}\right] \\ &=\underset{\sigma}{argmin} \sum_{i}\left[\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}+\log \sigma\right] \end{aligned}
σMLE=σargmaxL(μ,σ)=σargmaxi∑[2σ2(xi−μ)2+logσ+log2π]=σargmini∑[2σ2(xi−μ)2+logσ]
同样求导有:
∂
∂
σ
∑
i
[
(
x
i
−
μ
)
2
2
σ
2
+
log
σ
]
=
−
1
σ
3
∑
i
(
x
i
−
μ
)
2
+
n
σ
=
0
\frac{\partial}{\partial \sigma}\sum_{i}\left[\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}+\log \sigma\right]=-\frac{1}{\sigma^{3}} \sum_{i}\left(x_{i}-\mu\right)^{2}+\frac{n}{\sigma}=0
∂σ∂i∑[2σ2(xi−μ)2+logσ]=−σ31i∑(xi−μ)2+σn=0
所以,
σ
M
L
E
2
=
1
n
∑
i
(
x
i
−
μ
M
L
E
)
2
\sigma_{MLE}^2=\frac{1}{n} \sum_{i}\left(x_{i}-\mu_{MLE}\right)^{2}
σMLE2=n1i∑(xi−μMLE)2
注意,极大似然估计出的
μ
\mu
μ是无偏估计,而
σ
\sigma
σ是有偏估计。
无偏估计
无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值,则称此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。
有偏估计
有偏估计(biased estimate)是指由样本值求得的估计值与待估参数的真值之间有系统误差,其期望值不是待估参数的真值。在统计学中,估计量的偏差(或偏差函数)是此估计量的期望值与估计参数的真值之差。偏差为零的估计量或决策规则称为无偏的。否则该估计量是有偏的。
所以,我们验证参数是有偏还是无偏的也就要要验证参数的期望是否等于样本的真实参数。
E
(
μ
M
L
E
)
=
E
(
1
n
∑
i
x
i
)
=
1
n
∑
i
E
(
x
i
)
=
μ
E(\mu_{MLE})=E(\frac{1}{n}\sum_ix_i)=\frac{1}{n}\sum_iE(x_i)=\mu
E(μMLE)=E(n1∑ixi)=n1∑iE(xi)=μ
所以
μ
\mu
μ是无偏估计。
对于参数
σ
\sigma
σ有:
σ
M
L
E
2
=
1
n
∑
i
(
x
i
−
μ
)
2
=
1
n
∑
i
T
(
x
i
2
−
2
x
i
μ
M
L
E
+
μ
M
L
E
2
)
=
i
n
∑
i
x
i
2
−
2
n
∑
i
x
i
μ
M
L
E
+
n
μ
2
=
1
n
∑
i
x
i
2
−
2
μ
M
L
E
2
+
μ
M
L
E
2
=
1
n
∑
i
x
i
2
−
μ
M
L
E
2
\begin{aligned}\sigma_{MLE}^{2}&=\frac{1}{n} \sum_{i}(x_{i}-\mu)^{2} \\ &=\frac{1}{n} \sum_{i}^{T}\left(x_{i}^{2}-2 x_{i} \mu_{MLE}+\mu^{2}_{MLE}\right) \\ &=\frac{i}{n} \sum_{i} x_{i}^{2}-\frac{2}{n} \sum_{i} x_{i} \mu_{MLE}+n \mu^{2}_{} \\ &=\frac{1}{n} \sum_{i} x_{i}^{2}-2 \mu_{MLE}^{2}+\mu_{MLE}^{2} \\ &=\frac{1}{n} \sum_{i} x_{i}^{2}-\mu_{MLE}^{2} \end{aligned}
σMLE2=n1i∑(xi−μ)2=n1i∑T(xi2−2xiμMLE+μMLE2)=nii∑xi2−n2i∑xiμMLE+nμ2=n1i∑xi2−2μMLE2+μMLE2=n1i∑xi2−μMLE2
E
[
σ
M
L
E
2
]
=
E
[
1
n
∑
i
x
i
2
−
μ
M
L
E
2
]
=
E
[
1
n
∑
i
x
i
2
−
μ
2
+
μ
2
−
μ
M
L
E
2
]
=
E
[
[
1
n
∑
i
x
i
2
−
μ
2
]
−
E
[
μ
M
L
E
2
−
μ
2
]
=
1
n
∑
i
[
E
[
x
i
]
−
μ
2
]
−
[
E
[
μ
M
L
E
2
]
−
E
[
μ
2
]
]
=
1
n
∑
i
σ
2
−
1
n
σ
2
=
n
−
1
n
σ
2
\begin{aligned}E[\sigma_{MLE}^{2}]&=E[\frac{1}{n}\sum_ix_i^2-\mu_{MLE}^2]\\ &=E[\frac{1}{n}\sum_ix_i^2-\mu^2+\mu^2-\mu_{MLE}^2]\\ &=E[[\frac{1}{n}\sum_ix_i^2-\mu^2]-E[\mu_{MLE}^2-\mu^2]\\ &=\frac{1}{n}\sum_i[E[x_i]-\mu^2]-[E[\mu_{MLE}^2]-E[\mu^2]]\\ &=\frac{1}{n}\sum_i\sigma^2-\frac{1}{n}\sigma^2\\ &=\frac{n-1}{n}\sigma^2 \end{aligned}
E[σMLE2]=E[n1i∑xi2−μMLE2]=E[n1i∑xi2−μ2+μ2−μMLE2]=E[[n1i∑xi2−μ2]−E[μMLE2−μ2]=n1i∑[E[xi]−μ2]−[E[μMLE2]−E[μ2]]=n1i∑σ2−n1σ2=nn−1σ2
所以
σ
M
L
E
\sigma_{MLE}
σMLE是有偏估计,
n
n
−
1
σ
M
L
E
2
\frac{n}{n-1}\sigma^2_{MLE}
n−1nσMLE2才是高斯分布的无偏估计。
从概率角度观察高斯分布
从概率的角度来观察高斯分布,需要从高维情况来观察,高维的高斯概率密度公式是
g
(
X
)
=
1
(
2
π
)
d
2
∥
Σ
∥
1
2
e
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
g(\boldsymbol{X})=\frac{1}{(2 \pi)^{\frac{d}{2}}\|\Sigma\|^{\frac{1}{2}}} e^{-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)}
g(X)=(2π)2d∥Σ∥211e−21(x−μ)TΣ−1(x−μ),其中我们对各个参数表示一下有助于直观理解,
x
x
x是一个
p
p
p维向量
x
=
(
x
1
,
x
2
,
⋯
,
x
p
)
⊺
,
u
x=(x_1, x_2, \cdots, x_p)^\intercal, u
x=(x1,x2,⋯,xp)⊺,u是各个维度上的样本均值,
μ
=
(
μ
1
,
μ
2
,
⋯
,
μ
p
)
⊺
\mu=(\mu_1, \mu_2, \cdots, \mu_p)^\intercal
μ=(μ1,μ2,⋯,μp)⊺,
Σ
\Sigma
Σ是各个分量的协方差矩阵,
Σ
=
[
σ
11
σ
12
⋯
σ
1
p
σ
21
σ
22
⋯
σ
2
p
⋮
⋮
⋱
⋮
σ
p
1
σ
p
2
⋯
σ
p
p
]
\Sigma=\begin{bmatrix} \sigma_{11}& \sigma_{12}& \cdots& \sigma_{1p}& \\ \sigma_{21}& \sigma_{22}& \cdots& \sigma_{2p}& \\ \vdots & \vdots & \ddots & \vdots & \\ \sigma_{p1}& \sigma_{p2}& \cdots & \sigma_{pp}& \end{bmatrix}
Σ=⎣⎢⎢⎢⎡σ11σ21⋮σp1σ12σ22⋮σp2⋯⋯⋱⋯σ1pσ2p⋮σpp⎦⎥⎥⎥⎤。
显然
Σ
\Sigma
Σ是一个对称矩阵,可知
Σ
\Sigma
Σ作变换,
Σ
=
U
Λ
U
⊺
\Sigma=U\Lambda U^\intercal
Σ=UΛU⊺,其中
U
U
U是正交矩阵,写作
(
u
1
,
u
2
,
⋯
,
u
p
)
(u_1, u_2, \cdots, u_p)
(u1,u2,⋯,up),
Λ
=
d
i
a
g
(
λ
1
,
λ
2
,
⋯
,
λ
p
)
\Lambda=diag(\lambda_1, \lambda_2, \cdots, \lambda_p)
Λ=diag(λ1,λ2,⋯,λp)
则
Σ
=
∑
i
=
1
p
u
i
λ
i
u
i
⊺
\Sigma=\sum_{i=1}^{p}u_i\lambda_iu_i^\intercal
Σ=∑i=1puiλiui⊺,所以
Σ
−
1
=
∑
i
=
1
p
u
i
1
λ
i
u
i
⊺
\Sigma^{-1}=\sum_{i=1}^{p}u_i\frac{1}{\lambda_i}u_i^\intercal
Σ−1=∑i=1puiλi1ui⊺。
Δ
=
(
x
−
μ
)
⊺
Σ
−
1
(
x
−
μ
)
=
(
x
−
μ
)
⊤
∑
i
=
1
p
u
i
1
λ
i
u
i
⊤
(
x
−
μ
)
=
∑
i
=
1
(
x
−
μ
)
⊤
u
i
1
λ
i
u
i
⊤
(
x
−
μ
)
\begin{aligned} \Delta = (x-\mu)^\intercal\Sigma^{-1}(x-\mu) =(x-\mu)^{\top} \sum_{i=1}^{p} u_{i} \frac{1}{\lambda_{i}} u_{i}^{\top}(x-\mu)\\ =\sum_{i=1}(x-\mu)^{\top} u_{i} \frac{1}{\lambda_{i}} u_{i}^{\top}(x-\mu) \end{aligned}
Δ=(x−μ)⊺Σ−1(x−μ)=(x−μ)⊤i=1∑puiλi1ui⊤(x−μ)=i=1∑(x−μ)⊤uiλi1ui⊤(x−μ)
令
y
i
=
(
x
−
μ
)
u
i
⊤
y_i=(x-\mu)u_i^{\top}
yi=(x−μ)ui⊤,可以看出
y
i
y_i
yi就是
(
x
−
μ
)
(x-\mu)
(x−μ)在
u
i
u_i
ui上的投影,
u
i
u_i
ui是协方差矩阵的关于特征值
λ
i
\lambda_i
λi的特征向量。上式继续化简有:
=
∑
i
=
1
p
y
i
1
λ
i
y
i
⊤
=
∑
i
=
1
p
y
i
2
λ
i
\begin{aligned} &=\sum_{i=1}^{p}y_i\frac{1}{\lambda_i}y_i^{\top}\\ &=\sum_{i=1}^{p}\frac{y_i^2}{\lambda_i}\end{aligned}
=i=1∑pyiλi1yi⊤=i=1∑pλiyi2
对上式分析,先假设
p
=
2
p=2
p=2,对一个固定了的高斯分布有
y
1
2
λ
1
+
y
2
2
λ
2
=
δ
\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2}=\delta
λ1y12+λ2y22=δ可以看出是一个椭圆形,根据该公式,可以绘制出其概率密度函数的等高线,意义就是其概率密度等高线是椭圆形式的,若
λ
1
=
λ
2
\lambda_1=\lambda_2
λ1=λ2,此时是圆,高维情形下也可以类推下去知是高维情况下的椭圆形密度函数,其收敛于中心一点。
高斯分布的局限性
一、高斯分布的参数较多
(
p
2
)
(p^2)
(p2),而且不是相互独立的,就导致协方差矩阵
Σ
\Sigma
Σ较难计算。
二、现实的模型都比较复杂,大部分都很难用一个高斯模型所表示,这时我们引入了高斯混合模型(Gussian Mixure Model,GMM)
高斯模型的概率分布
条件概率和边缘概率
先介绍一个事实, 若
x
∼
N
(
μ
,
∑
2
)
,
x
∈
R
p
x \sim N(\mu, \sum^2), x \in R^p
x∼N(μ,∑2),x∈Rp,
y
=
A
x
+
B
y=Ax+B
y=Ax+B则
y
∼
N
(
A
μ
+
B
,
A
∑
A
⊤
)
y \sim N(A\mu + B, A \sum A^\top)
y∼N(Aμ+B,A∑A⊤)。
问题:
x
=
[
x
a
x
b
]
,
x
a
∈
R
m
,
x
b
∈
R
n
,
m
+
n
=
p
.
μ
=
[
μ
a
μ
b
]
,
∑
=
[
∑
a
a
∑
a
b
∑
b
a
∑
b
b
]
x=\begin{bmatrix}x_a \\ x_b \end{bmatrix}, x_a \in R^m, x_b \in R^n, m+n=p. \ \mu=\begin{bmatrix}\mu_a \\ \mu_b \end{bmatrix}, \sum=\begin{bmatrix} \sum_{aa} & \sum_{ab} \\ \sum_{ba} & \sum_{bb} \end{bmatrix}
x=[xaxb],xa∈Rm,xb∈Rn,m+n=p. μ=[μaμb],∑=[∑aa∑ba∑ab∑bb], 求
P
(
x
a
)
,
P
(
x
b
∣
x
a
)
.
P(x_a),P(x_b|x_a).
P(xa),P(xb∣xa).
解:
x
a
=
[
I
m
0
]
[
x
a
x
b
]
x_a = \begin{bmatrix} I_m & 0 \end{bmatrix} \begin{bmatrix} x_a \\ x_b \end{bmatrix}
xa=[Im0][xaxb],利用上面的结论可以得出:
E
(
x
a
)
=
[
I
m
0
]
[
μ
a
μ
b
]
=
μ
a
E(x_a)=\begin{bmatrix} I_m & 0 \end{bmatrix} \begin{bmatrix} \mu_a \\ \mu_b \end{bmatrix}=\mu_a
E(xa)=[Im0][μaμb]=μa,
V
a
r
(
x
a
)
=
[
I
m
0
]
∑
[
I
m
0
]
=
∑
a
a
Var(x_a)=\begin{bmatrix} I_m & 0 \end{bmatrix} \sum \begin{bmatrix} I_m \\ 0 \end{bmatrix}=\sum_{aa}
Var(xa)=[Im0]∑[Im0]=∑aa。
所以我们就得到了
x
a
∼
N
(
μ
a
,
∑
a
a
)
x_a \sim N(\mu_a, \sum_{aa})
xa∼N(μa,∑aa)。下面求
P
(
x
b
∣
x
a
)
P(x_b|x_a)
P(xb∣xa),
为了求
P
(
x
b
∣
x
a
)
P(x_b|x_a)
P(xb∣xa),我们先引入一个变量
x
u
=
x
b
−
∑
b
a
∑
a
a
−
1
x
a
x_u = x_b - \sum_{ba}\sum_{aa}^{-1}x_a
xu=xb−∑ba∑aa−1xa,
μ
u
=
μ
b
−
∑
b
a
∑
a
a
−
1
μ
a
,
∑
u
=
∑
b
b
−
∑
b
a
∑
a
a
−
1
∑
a
b
\mu_u=\mu_b - \sum_{ba}\sum_{aa}^{-1}\mu_a, \sum_{u}=\sum_{bb}-\sum_{ba}\sum_{aa}^{-1}\sum_{ab}
μu=μb−∑ba∑aa−1μa,∑u=∑bb−∑ba∑aa−1∑ab,利用上面结论很容易验证
x
u
∼
N
(
μ
u
,
∑
u
)
x_u \sim N(\mu_u,\sum_{u})
xu∼N(μu,∑u)。所以我们有:
x
b
=
x
u
+
∑
b
a
∑
a
a
−
1
x
a
x_b = x_u +\sum_{ba}\sum_{aa}^{-1}x_a
xb=xu+∑ba∑aa−1xa。所以
E
[
x
b
∣
x
a
]
=
μ
u
+
∑
b
a
∑
a
a
−
1
x
a
,
V
a
r
(
x
b
∣
x
a
)
=
V
a
r
(
x
u
)
=
∑
u
E[x_b|x_a]=\mu_u +\sum_{ba}\sum_{aa}^{-1}x_a, Var(x_b|x_a)=Var(x_u)=\sum_u
E[xb∣xa]=μu+∑ba∑aa−1xa,Var(xb∣xa)=Var(xu)=∑u,故
x
b
∣
x
a
∼
N
(
μ
u
+
∑
b
a
∑
a
a
−
1
x
a
,
∑
u
)
x_b|x_a \sim N(\mu_u +\sum_{ba}\sum_{aa}^{-1}x_a, \sum_u)
xb∣xa∼N(μu+∑ba∑aa−1xa,∑u)。
至此我们已经求出了边缘概率和条件概率。下面继续求联合概率,
对于联合概率我们问题需要变化一下
已知,
p
(
x
)
=
N
(
x
∣
μ
,
Λ
−
1
)
,
p
(
y
∣
x
)
=
N
(
y
∣
A
x
+
b
,
L
−
1
)
p(x)=N(x|\mu, \Lambda^{-1}), p(y|x)=N(y|Ax+b, L^{-1})
p(x)=N(x∣μ,Λ−1),p(y∣x)=N(y∣Ax+b,L−1),求
p
(
y
)
,
p
(
x
∣
y
)
p(y),p(x|y)
p(y),p(x∣y).
上面
y
y
y是与
x
x
x的分布相关,但有噪声,所以我们将其转化一下:
y
=
A
x
+
b
+
ε
,
ε
∼
N
(
0
,
L
−
1
)
y=Ax+b+\varepsilon, \varepsilon \sim N(0,L^{-1})
y=Ax+b+ε,ε∼N(0,L−1),
所以
E
[
y
]
=
E
[
A
x
+
b
+
ε
]
=
E
[
A
x
+
b
]
+
E
[
ε
]
=
A
μ
+
b
E[y]=E[Ax+b+\varepsilon]=E[Ax+b]+E[\varepsilon]=A\mu+b
E[y]=E[Ax+b+ε]=E[Ax+b]+E[ε]=Aμ+b,
V
a
r
[
y
]
=
V
a
r
[
A
x
+
b
+
ε
]
=
V
a
r
[
A
x
+
b
]
+
V
a
r
[
ε
]
=
A
Λ
−
1
A
⊤
+
L
−
1
Var[y]=Var[Ax+b+\varepsilon]=Var[Ax+b]+Var[\varepsilon]=A\Lambda^{-1}A^\top+L^{-1}
Var[y]=Var[Ax+b+ε]=Var[Ax+b]+Var[ε]=AΛ−1A⊤+L−1,
所以,
y
∼
N
(
A
μ
+
b
,
A
Λ
−
1
A
⊤
+
L
−
1
)
y\sim N(A\mu+b,A\Lambda^{-1}A^\top+L^{-1})
y∼N(Aμ+b,AΛ−1A⊤+L−1)。
为了求第二个条件概率我们先求其联合概率,令
z
=
[
x
y
]
z=\begin{bmatrix}x\\y\end{bmatrix}
z=[xy]
E
[
z
]
=
[
μ
A
μ
+
b
]
E[z]=\begin{bmatrix}\mu\\A\mu+b\end{bmatrix}
E[z]=[μAμ+b]
V
a
r
(
z
)
=
[
Λ
−
1
Δ
Δ
A
Λ
−
1
A
⊤
+
L
−
1
]
Var(z)=\begin{bmatrix} \Lambda^{-1} & \Delta\\ \Delta & A\Lambda^{-1}A^\top+L^{-1}\end{bmatrix}
Var(z)=[Λ−1ΔΔAΛ−1A⊤+L−1]
其中
Δ
\Delta
Δ是
x
x
x和
y
y
y的协方差
C
o
v
(
x
,
y
)
=
Λ
−
1
A
⊤
Cov(x, y)=\Lambda^{-1}A^\top
Cov(x,y)=Λ−1A⊤(这里偷个懒不写啦,下图有推导过程)。所以我们求出了联合概率
x
∼
N
(
E
[
z
]
,
V
a
r
(
z
)
)
x \sim N(E[z],Var(z))
x∼N(E[z],Var(z)),就可根据上面的条件概率公式求出
(
p
(
x
∣
y
)
)
(p(x|y))
(p(x∣y))了。
至此,我们求出了高斯分布下的两个变量的所有条件概率和边缘概率情况,还给出了联合概率的求法,前提是两个变量要有一定的线性关系。
(水平有限,如有错误,麻烦批评指正)
图来源于b站up主shuhuai008的板书,写的真的好棒