白板推导系列(第二节)

白板推导系列(第二节)

内容来源于b站up主shuhuai008

高斯分布介绍

正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由棣莫弗(Abraham de Moivre)在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
一元高斯分布的概率密度函数为: f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}} f(x)=2π σ1e2σ2(xμ)2,高维高斯分布概率密度函数为:
g ( X ) = 1 ( 2 π ) d 2 ∥ Σ ∥ 1 2 e − 1 2 ( x − u ) T Σ − 1 ( x − u ) g(\boldsymbol{X})=\frac{1}{(2 \pi)^{\frac{d}{2}}\|\Sigma\|^{\frac{1}{2}}} e^{-\frac{1}{2}(x-u)^{T} \Sigma^{-1}(x-u)} g(X)=(2π)2dΣ211e21(xu)TΣ1(xu)文章里有详细讲解。

高斯分布的极大似然估计

先观察一维的高斯分布情况,高维情况可以直接推广。假设样本 X = ( x 1 , x 2 , x 3 , … , x n ) X=(x_1, x_2, x_3, \dots,x_n) X=(x1,x2,x3,,xn)是独立同分布与高斯分布 N ( μ , σ 2 ) N(\mu, \sigma^{2}) N(μ,σ2), 对其做一个最大似然估计有:
l o g P ( X ∣ θ ) = l o g ∏ i = 1 n P ( x i ∣ θ ) = ∑ i = 1 n l o g P ( x i ∣ θ ) = ∑ i [ − ( x i − μ ) 2 2 σ 2 − l o g 2 π σ ] = − L ( μ , σ ) logP(X|\theta)=log\prod_{i=1}^{n}P(x_{i}|\theta)=\sum_{i=1}^{n}logP(x_{i}|\theta)=\sum_{i}[-\frac{(x_i-\mu)^{2}}{2\sigma^{2}}-log\sqrt{2\pi}\sigma]=-L(\mu,\sigma) logP(Xθ)=logi=1nP(xiθ)=i=1nlogP(xiθ)=i[2σ2(xiμ)2log2π σ]=L(μ,σ)
从而利用极大似然估计可得:
μ M L E = a r g m a x μ L ( μ , σ ) = a r g m a x μ ∑ i − ( x i − μ ) 2 2 σ 2 = a r g m i n μ ∑ i ( x i − μ ) 2 2 σ 2 \mu_{MLE}=\underset{\mu}{argmax}L(\mu,\sigma)=\underset{\mu}{argmax}\sum_{i}-\frac{(x_i-\mu)^{2}}{2\sigma^{2}}=\underset{\mu}{argmin}\sum_{i}\frac{(x_i-\mu)^{2}}{2\sigma^{2}} μMLE=μargmaxL(μ,σ)=μargmaxi2σ2(xiμ)2=μargmini2σ2(xiμ)2
求其极值,对 μ 求 导 \mu求导 μ
∂ ∂ μ ( ∑ i ( x i − μ ) 2 2 σ 2 ) = − ∑ i ( x i 2 − μ ) σ 2 = 0 \frac{\partial}{\partial \mu}\left(\sum_{i} \frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}\right)=-\sum_{i} \frac{\left(x_{i}^{2}-\mu\right)}{\sigma^{2}}=0 μ(i2σ2(xiμ)2)=iσ2(xi2μ)=0
μ M L E = 1 n ∑ i x i \mu_{MLE}=\frac{1}{n}\sum_{i}x_i μMLE=n1ixi
下面用同样方法求 σ \sigma σ的极大似然估计:
σ M L E = a r g m a x σ L ( μ , σ ) = a r g m a x σ ∑ i [ ( x i − μ ) 2 2 σ 2 + log ⁡ σ + log ⁡ 2 π ] = a r g m i n σ ∑ i [ ( x i − μ ) 2 2 σ 2 + log ⁡ σ ] \begin{aligned} \sigma_{MLE} &=\underset{\sigma}{argmax}L(\mu, \sigma)=\underset{\sigma}{argmax} \sum_{i}\left[\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}+\log \sigma+\log \sqrt{2 \pi}\right] \\ &=\underset{\sigma}{argmin} \sum_{i}\left[\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}+\log \sigma\right] \end{aligned} σMLE=σargmaxL(μ,σ)=σargmaxi[2σ2(xiμ)2+logσ+log2π ]=σargmini[2σ2(xiμ)2+logσ]
同样求导有:
∂ ∂ σ ∑ i [ ( x i − μ ) 2 2 σ 2 + log ⁡ σ ] = − 1 σ 3 ∑ i ( x i − μ ) 2 + n σ = 0 \frac{\partial}{\partial \sigma}\sum_{i}\left[\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}+\log \sigma\right]=-\frac{1}{\sigma^{3}} \sum_{i}\left(x_{i}-\mu\right)^{2}+\frac{n}{\sigma}=0 σi[2σ2(xiμ)2+logσ]=σ31i(xiμ)2+σn=0
所以,
σ M L E 2 = 1 n ∑ i ( x i − μ M L E ) 2 \sigma_{MLE}^2=\frac{1}{n} \sum_{i}\left(x_{i}-\mu_{MLE}\right)^{2} σMLE2=n1i(xiμMLE)2
注意,极大似然估计出的 μ \mu μ是无偏估计,而 σ \sigma σ是有偏估计。

无偏估计

无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值,则称此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。

有偏估计

有偏估计(biased estimate)是指由样本值求得的估计值与待估参数的真值之间有系统误差,其期望值不是待估参数的真值。在统计学中,估计量的偏差(或偏差函数)是此估计量的期望值与估计参数的真值之差。偏差为零的估计量或决策规则称为无偏的。否则该估计量是有偏的。

所以,我们验证参数是有偏还是无偏的也就要要验证参数的期望是否等于样本的真实参数。
E ( μ M L E ) = E ( 1 n ∑ i x i ) = 1 n ∑ i E ( x i ) = μ E(\mu_{MLE})=E(\frac{1}{n}\sum_ix_i)=\frac{1}{n}\sum_iE(x_i)=\mu E(μMLE)=E(n1ixi)=n1iE(xi)=μ
所以 μ \mu μ是无偏估计。
对于参数 σ \sigma σ有:
σ M L E 2 = 1 n ∑ i ( x i − μ ) 2 = 1 n ∑ i T ( x i 2 − 2 x i μ M L E + μ M L E 2 ) = i n ∑ i x i 2 − 2 n ∑ i x i μ M L E + n μ 2 = 1 n ∑ i x i 2 − 2 μ M L E 2 + μ M L E 2 = 1 n ∑ i x i 2 − μ M L E 2 \begin{aligned}\sigma_{MLE}^{2}&=\frac{1}{n} \sum_{i}(x_{i}-\mu)^{2} \\ &=\frac{1}{n} \sum_{i}^{T}\left(x_{i}^{2}-2 x_{i} \mu_{MLE}+\mu^{2}_{MLE}\right) \\ &=\frac{i}{n} \sum_{i} x_{i}^{2}-\frac{2}{n} \sum_{i} x_{i} \mu_{MLE}+n \mu^{2}_{} \\ &=\frac{1}{n} \sum_{i} x_{i}^{2}-2 \mu_{MLE}^{2}+\mu_{MLE}^{2} \\ &=\frac{1}{n} \sum_{i} x_{i}^{2}-\mu_{MLE}^{2} \end{aligned} σMLE2=n1i(xiμ)2=n1iT(xi22xiμMLE+μMLE2)=niixi2n2ixiμMLE+nμ2=n1ixi22μMLE2+μMLE2=n1ixi2μMLE2
E [ σ M L E 2 ] = E [ 1 n ∑ i x i 2 − μ M L E 2 ] = E [ 1 n ∑ i x i 2 − μ 2 + μ 2 − μ M L E 2 ] = E [ [ 1 n ∑ i x i 2 − μ 2 ] − E [ μ M L E 2 − μ 2 ] = 1 n ∑ i [ E [ x i ] − μ 2 ] − [ E [ μ M L E 2 ] − E [ μ 2 ] ] = 1 n ∑ i σ 2 − 1 n σ 2 = n − 1 n σ 2 \begin{aligned}E[\sigma_{MLE}^{2}]&=E[\frac{1}{n}\sum_ix_i^2-\mu_{MLE}^2]\\ &=E[\frac{1}{n}\sum_ix_i^2-\mu^2+\mu^2-\mu_{MLE}^2]\\ &=E[[\frac{1}{n}\sum_ix_i^2-\mu^2]-E[\mu_{MLE}^2-\mu^2]\\ &=\frac{1}{n}\sum_i[E[x_i]-\mu^2]-[E[\mu_{MLE}^2]-E[\mu^2]]\\ &=\frac{1}{n}\sum_i\sigma^2-\frac{1}{n}\sigma^2\\ &=\frac{n-1}{n}\sigma^2 \end{aligned} E[σMLE2]=E[n1ixi2μMLE2]=E[n1ixi2μ2+μ2μMLE2]=E[[n1ixi2μ2]E[μMLE2μ2]=n1i[E[xi]μ2][E[μMLE2]E[μ2]]=n1iσ2n1σ2=nn1σ2
所以 σ M L E \sigma_{MLE} σMLE是有偏估计, n n − 1 σ M L E 2 \frac{n}{n-1}\sigma^2_{MLE} n1nσMLE2才是高斯分布的无偏估计。

从概率角度观察高斯分布

从概率的角度来观察高斯分布,需要从高维情况来观察,高维的高斯概率密度公式是 g ( X ) = 1 ( 2 π ) d 2 ∥ Σ ∥ 1 2 e − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) g(\boldsymbol{X})=\frac{1}{(2 \pi)^{\frac{d}{2}}\|\Sigma\|^{\frac{1}{2}}} e^{-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)} g(X)=(2π)2dΣ211e21(xμ)TΣ1(xμ),其中我们对各个参数表示一下有助于直观理解, x x x是一个 p p p维向量 x = ( x 1 , x 2 , ⋯   , x p ) ⊺ , u x=(x_1, x_2, \cdots, x_p)^\intercal, u x=(x1,x2,,xp),u是各个维度上的样本均值, μ = ( μ 1 , μ 2 , ⋯   , μ p ) ⊺ \mu=(\mu_1, \mu_2, \cdots, \mu_p)^\intercal μ=(μ1,μ2,,μp) Σ \Sigma Σ是各个分量的协方差矩阵, Σ = [ σ 11 σ 12 ⋯ σ 1 p σ 21 σ 22 ⋯ σ 2 p ⋮ ⋮ ⋱ ⋮ σ p 1 σ p 2 ⋯ σ p p ] \Sigma=\begin{bmatrix} \sigma_{11}& \sigma_{12}& \cdots& \sigma_{1p}& \\ \sigma_{21}& \sigma_{22}& \cdots& \sigma_{2p}& \\ \vdots & \vdots & \ddots & \vdots & \\ \sigma_{p1}& \sigma_{p2}& \cdots & \sigma_{pp}& \end{bmatrix} Σ=σ11σ21σp1σ12σ22σp2σ1pσ2pσpp
显然 Σ \Sigma Σ是一个对称矩阵,可知 Σ \Sigma Σ作变换, Σ = U Λ U ⊺ \Sigma=U\Lambda U^\intercal Σ=UΛU,其中 U U U是正交矩阵,写作 ( u 1 , u 2 , ⋯   , u p ) (u_1, u_2, \cdots, u_p) (u1,u2,,up), Λ = d i a g ( λ 1 , λ 2 , ⋯   , λ p ) \Lambda=diag(\lambda_1, \lambda_2, \cdots, \lambda_p) Λ=diag(λ1,λ2,,λp)
Σ = ∑ i = 1 p u i λ i u i ⊺ \Sigma=\sum_{i=1}^{p}u_i\lambda_iu_i^\intercal Σ=i=1puiλiui,所以 Σ − 1 = ∑ i = 1 p u i 1 λ i u i ⊺ \Sigma^{-1}=\sum_{i=1}^{p}u_i\frac{1}{\lambda_i}u_i^\intercal Σ1=i=1puiλi1ui
Δ = ( x − μ ) ⊺ Σ − 1 ( x − μ ) = ( x − μ ) ⊤ ∑ i = 1 p u i 1 λ i u i ⊤ ( x − μ ) = ∑ i = 1 ( x − μ ) ⊤ u i 1 λ i u i ⊤ ( x − μ ) \begin{aligned} \Delta = (x-\mu)^\intercal\Sigma^{-1}(x-\mu) =(x-\mu)^{\top} \sum_{i=1}^{p} u_{i} \frac{1}{\lambda_{i}} u_{i}^{\top}(x-\mu)\\ =\sum_{i=1}(x-\mu)^{\top} u_{i} \frac{1}{\lambda_{i}} u_{i}^{\top}(x-\mu) \end{aligned} Δ=(xμ)Σ1(xμ)=(xμ)i=1puiλi1ui(xμ)=i=1(xμ)uiλi1ui(xμ)
y i = ( x − μ ) u i ⊤ y_i=(x-\mu)u_i^{\top} yi=(xμ)ui,可以看出 y i y_i yi就是 ( x − μ ) (x-\mu) (xμ) u i u_i ui上的投影, u i u_i ui是协方差矩阵的关于特征值 λ i \lambda_i λi的特征向量。上式继续化简有:
= ∑ i = 1 p y i 1 λ i y i ⊤ = ∑ i = 1 p y i 2 λ i \begin{aligned} &=\sum_{i=1}^{p}y_i\frac{1}{\lambda_i}y_i^{\top}\\ &=\sum_{i=1}^{p}\frac{y_i^2}{\lambda_i}\end{aligned} =i=1pyiλi1yi=i=1pλiyi2
对上式分析,先假设 p = 2 p=2 p=2,对一个固定了的高斯分布有 y 1 2 λ 1 + y 2 2 λ 2 = δ \frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2}=\delta λ1y12+λ2y22=δ可以看出是一个椭圆形,根据该公式,可以绘制出其概率密度函数的等高线,意义就是其概率密度等高线是椭圆形式的,若 λ 1 = λ 2 \lambda_1=\lambda_2 λ1=λ2,此时是圆,高维情形下也可以类推下去知是高维情况下的椭圆形密度函数,其收敛于中心一点。

高斯分布的局限性

一、高斯分布的参数较多 ( p 2 ) (p^2) (p2),而且不是相互独立的,就导致协方差矩阵 Σ \Sigma Σ较难计算。
二、现实的模型都比较复杂,大部分都很难用一个高斯模型所表示,这时我们引入了高斯混合模型(Gussian Mixure Model,GMM)

高斯模型的概率分布

条件概率和边缘概率

先介绍一个事实, 若 x ∼ N ( μ , ∑ 2 ) , x ∈ R p x \sim N(\mu, \sum^2), x \in R^p xN(μ,2),xRp, y = A x + B y=Ax+B y=Ax+B y ∼ N ( A μ + B , A ∑ A ⊤ ) y \sim N(A\mu + B, A \sum A^\top) yN(Aμ+B,AA)
问题: x = [ x a x b ] , x a ∈ R m , x b ∈ R n , m + n = p .   μ = [ μ a μ b ] , ∑ = [ ∑ a a ∑ a b ∑ b a ∑ b b ] x=\begin{bmatrix}x_a \\ x_b \end{bmatrix}, x_a \in R^m, x_b \in R^n, m+n=p. \ \mu=\begin{bmatrix}\mu_a \\ \mu_b \end{bmatrix}, \sum=\begin{bmatrix} \sum_{aa} & \sum_{ab} \\ \sum_{ba} & \sum_{bb} \end{bmatrix} x=[xaxb],xaRm,xbRn,m+n=p. μ=[μaμb],=[aabaabbb], 求 P ( x a ) , P ( x b ∣ x a ) . P(x_a),P(x_b|x_a). P(xa),P(xbxa).
解: x a = [ I m 0 ] [ x a x b ] x_a = \begin{bmatrix} I_m & 0 \end{bmatrix} \begin{bmatrix} x_a \\ x_b \end{bmatrix} xa=[Im0][xaxb],利用上面的结论可以得出: E ( x a ) = [ I m 0 ] [ μ a μ b ] = μ a E(x_a)=\begin{bmatrix} I_m & 0 \end{bmatrix} \begin{bmatrix} \mu_a \\ \mu_b \end{bmatrix}=\mu_a E(xa)=[Im0][μaμb]=μa, V a r ( x a ) = [ I m 0 ] ∑ [ I m 0 ] = ∑ a a Var(x_a)=\begin{bmatrix} I_m & 0 \end{bmatrix} \sum \begin{bmatrix} I_m \\ 0 \end{bmatrix}=\sum_{aa} Var(xa)=[Im0][Im0]=aa
所以我们就得到了 x a ∼ N ( μ a , ∑ a a ) x_a \sim N(\mu_a, \sum_{aa}) xaN(μa,aa)。下面求 P ( x b ∣ x a ) P(x_b|x_a) P(xbxa),
为了求 P ( x b ∣ x a ) P(x_b|x_a) P(xbxa),我们先引入一个变量 x u = x b − ∑ b a ∑ a a − 1 x a x_u = x_b - \sum_{ba}\sum_{aa}^{-1}x_a xu=xbbaaa1xa, μ u = μ b − ∑ b a ∑ a a − 1 μ a , ∑ u = ∑ b b − ∑ b a ∑ a a − 1 ∑ a b \mu_u=\mu_b - \sum_{ba}\sum_{aa}^{-1}\mu_a, \sum_{u}=\sum_{bb}-\sum_{ba}\sum_{aa}^{-1}\sum_{ab} μu=μbbaaa1μa,u=bbbaaa1ab,利用上面结论很容易验证 x u ∼ N ( μ u , ∑ u ) x_u \sim N(\mu_u,\sum_{u}) xuN(μu,u)。所以我们有:
x b = x u + ∑ b a ∑ a a − 1 x a x_b = x_u +\sum_{ba}\sum_{aa}^{-1}x_a xb=xu+baaa1xa。所以 E [ x b ∣ x a ] = μ u + ∑ b a ∑ a a − 1 x a , V a r ( x b ∣ x a ) = V a r ( x u ) = ∑ u E[x_b|x_a]=\mu_u +\sum_{ba}\sum_{aa}^{-1}x_a, Var(x_b|x_a)=Var(x_u)=\sum_u E[xbxa]=μu+baaa1xa,Var(xbxa)=Var(xu)=u,故 x b ∣ x a ∼ N ( μ u + ∑ b a ∑ a a − 1 x a , ∑ u ) x_b|x_a \sim N(\mu_u +\sum_{ba}\sum_{aa}^{-1}x_a, \sum_u) xbxaN(μu+baaa1xa,u)
至此我们已经求出了边缘概率和条件概率。下面继续求联合概率,
对于联合概率我们问题需要变化一下

已知, p ( x ) = N ( x ∣ μ , Λ − 1 ) , p ( y ∣ x ) = N ( y ∣ A x + b , L − 1 ) p(x)=N(x|\mu, \Lambda^{-1}), p(y|x)=N(y|Ax+b, L^{-1}) p(x)=N(xμ,Λ1),p(yx)=N(yAx+b,L1),求 p ( y ) , p ( x ∣ y ) p(y),p(x|y) p(y),p(xy).
上面 y y y是与 x x x的分布相关,但有噪声,所以我们将其转化一下:
y = A x + b + ε , ε ∼ N ( 0 , L − 1 ) y=Ax+b+\varepsilon, \varepsilon \sim N(0,L^{-1}) y=Ax+b+ε,εN(0,L1),
所以 E [ y ] = E [ A x + b + ε ] = E [ A x + b ] + E [ ε ] = A μ + b E[y]=E[Ax+b+\varepsilon]=E[Ax+b]+E[\varepsilon]=A\mu+b E[y]=E[Ax+b+ε]=E[Ax+b]+E[ε]=Aμ+b, V a r [ y ] = V a r [ A x + b + ε ] = V a r [ A x + b ] + V a r [ ε ] = A Λ − 1 A ⊤ + L − 1 Var[y]=Var[Ax+b+\varepsilon]=Var[Ax+b]+Var[\varepsilon]=A\Lambda^{-1}A^\top+L^{-1} Var[y]=Var[Ax+b+ε]=Var[Ax+b]+Var[ε]=AΛ1A+L1,
所以, y ∼ N ( A μ + b , A Λ − 1 A ⊤ + L − 1 ) y\sim N(A\mu+b,A\Lambda^{-1}A^\top+L^{-1}) yN(Aμ+b,AΛ1A+L1)
为了求第二个条件概率我们先求其联合概率,令 z = [ x y ] z=\begin{bmatrix}x\\y\end{bmatrix} z=[xy]
E [ z ] = [ μ A μ + b ] E[z]=\begin{bmatrix}\mu\\A\mu+b\end{bmatrix} E[z]=[μAμ+b] V a r ( z ) = [ Λ − 1 Δ Δ A Λ − 1 A ⊤ + L − 1 ] Var(z)=\begin{bmatrix} \Lambda^{-1} & \Delta\\ \Delta & A\Lambda^{-1}A^\top+L^{-1}\end{bmatrix} Var(z)=[Λ1ΔΔAΛ1A+L1]
其中 Δ \Delta Δ x x x y y y的协方差 C o v ( x , y ) = Λ − 1 A ⊤ Cov(x, y)=\Lambda^{-1}A^\top Cov(x,y)=Λ1A(这里偷个懒不写啦,下图有推导过程)。所以我们求出了联合概率 x ∼ N ( E [ z ] , V a r ( z ) ) x \sim N(E[z],Var(z)) xN(E[z],Var(z)),就可根据上面的条件概率公式求出 ( p ( x ∣ y ) ) (p(x|y)) (p(xy))了。
至此,我们求出了高斯分布下的两个变量的所有条件概率和边缘概率情况,还给出了联合概率的求法,前提是两个变量要有一定的线性关系。

(水平有限,如有错误,麻烦批评指正)

图来源于b站up主shuhuai008的板书,写的真的好棒

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值