高斯分布基础知识详解

最新推荐文章于 2024-04-22 16:19:35 发布

pinn山里娃

最新推荐文章于 2024-04-22 16:19:35 发布

阅读量1.6k

点赞数 6

分类专栏：深度学习文章标签：算法

本文链接：https://blog.csdn.net/weixin_45521594/article/details/105189553

版权

深度学习专栏收录该内容

9 篇文章 1 订阅

订阅专栏

文章目录

高斯分布

高斯分布

linear Gaussian model

$z_{t}=Az_{t-1}+B+\epsilon$ 其中 $\epsilon$ 为噪音

极大似然估计

已知
$X=(\mathrm{x}_{1}, \mathrm{x}_{2}, \mathrm{x}_{3}, \cdots \mathrm{x}_{N})^{T}$ ， $X_{i}\in\R$
推导 $X_{i}\sim\N(\mu,\sigma^2)$ ， $X_{i}\in\R^{P}$ ，

$log\mathrm{P}(X|\theta)=log\prod_{i=1}^{N}\mathrm{P}(X|\theta)=\sum_{i=1}^{N}log\mathrm{P}(x_{i}|\theta)=\sum_{i=1}^{N}[\log\frac{1}{\sqrt{2\pi}}+\log\frac{1}{\sigma}-\frac{(x_{i}-\mu)^2}{2\sigma^2}]$

$\mu_{MLE}=\underset{\mu}{\arg\max}\log\mathrm{P}(X|\theta)=\underset{\mu}{\arg\min}\sum_{i=1}^{N}(x_{i}-\mu)^2$

得到 $\mu_{MLE}=\frac{1}{N}\sum_{i=1}^{N}x_{i}$

同理 $\sigma_{MLE}^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu_{MLE})^{2}$

$\mu_{MLE}$ 叫无偏估计
$\sigma_{MLE}^{2}$ 叫有偏估计（ $E[\sigma_{MLE}^{2}]=\frac{N-1}{N}\sigma^{2}$ ）
无偏 $\hat{\sigma}=\frac{1}{N-1}\sum_{i=1}^{N}(x_{i}-\mu)^2$
- 推导 $E[\sigma_{MLE}^{2}]=E[\frac{1}{N}\sum_{i=1}^{N}(x_{i}^{2}-2x_{i}\mu_{MLE}+\mu_{MLE}^{2})]=E[\frac{1}{N}\sum_{i=1}^{N}(x_{i}^{2}-2\mu_{MLE}^{2}+\mu_{MLE}^{2})]=E[\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\mu^{2}]-E[\mu_{MLE}^{2}-\mu^{2})]=\sigma^{2}-(E[\mu_{MLE}^{2}]-E^{2}[\mu_{MLE}])=\frac{N-1}{N}\sigma^{2}$
极大似然估计方差偏小

多维高斯分布

$x\sim\N(\mu,\sum)=\frac{1}{(2\pi)^{\frac{P}{2}}|\sum|^{\frac{1}{2}}}exp(-\frac{1}{2}(x-\mu)^{T}\sum^{-1}(x-\mu))$
其中 $\mu=(\mu_{1},\mu_{2},\cdots,\mu_{P})^{T}$ , $\sum=\left(\begin{array}{ll}{\sigma_{11}}&{\cdots}&{\sigma_{1P}}\\{\vdots}&{\vdots}&{\vdots}\\{\sigma_{P1}}&{\cdots}&{\sigma_{PP}} \end{array}\right)$ `（方差矩阵）为正交的且为半正定（一般）
$(x-\mu)^{T}\sum^{-1}(x-\mu)$ :马氏距离（x与 $\mu$ 的距离）
- $\sum=I$ ,马氏距离=欧氏距离
- example:
  - $z_{1}=(z_{11},z_{12}),z_{2}=(z_{21},z_{22})$ , $(z_{1}-z_{2})^{T}\sum^{-1}(z_{1}-z_{2})=(z_{11}-z_{21})^{2}-(z_{12}-z_{22})^{2}$ 为欧氏距离
- $\sum=U\lambda U^{T}=U^{T}U=1$ ,其中 $UU^{T}=U^{T}U=1$ ， $\lambda$ 为特征值矩阵
  - $\sum=U\lambda U^{T}=U^{T}U=1=\sum_{i=1}^{P}u_{i}\lambda u_{i}^{T}$
  - $\sum^{-1}=(U\lambda U^{T})^{-1}=\sum_{i=1}^{P}u_{i}\lambda^{-1} u_{i}^{T}$
- $\Delta=(x-\mu)^{T}\sum^{-1}(x-\mu)=\sum_{i=1}^{P}(x-\mu)^{T}u_{i}\lambda^{-1} u_{i}^{T}(x-\mu)=\sum_{i=1}^{P}y_{i}\frac{1}{\lambda_{i}}y_{i}^{T}=\sum_{i=1}^{P}\frac{y_{i}^{2}}{\lambda_{i}}$ ,其中 $y_{i}=(x-\mu)^{T}\mu_{i}$
  - $p = 2$ , $\Delta=\frac{y_{1}^{2}}{\lambda_{1}}+\frac{y_{2}^{2}}{\lambda_{1}}=r_{i}$ ，便可以将其看作是椭圆，之不过是变换轴,这样就会出现等高线，即可与二维的高斯分布对比。
$\sum_{p\times p}$
- 有 $\frac{p^{2}-p}{2}+p=\frac{p^{2}+p}{2}$ 个参数即有 $\frac{p(p+1)}{2}=O(p^{2})$
局限性：如果样本点拟合成两个高斯分布更准确，但是实际中使用高斯则是用一个大的高斯去拟合，这样就会存在造成较大误差。

已知高斯分布求边缘和条件高斯分布

已知 $x=\left(\begin{array}{ll}{x_{a}}\\{x_{b}}\end{array}\right)$ , $\mu=\left(\begin{array}{ll}{\mu_{a}}\\{\mu_{b}}\end{array}\right)$ , $\sum=\left(\begin{array}{ll}{\sigma_{aa}}&{\sigma_{ab}}\\{\sigma_{ba}}&{\sigma_{bb}}\end{array}\right)$ ,其中 $a + b = p$ 。求 $P(x_{a})$ , $P(x_{b}|x_{a})$ , $P(x_{b})$ , $P(x_{a}|x_{b})$
配方法（prml）
定理： $x\sim N(\mu,\sigma^{2})$ , $y = A X + B$ ;结论： $y\sim N(A\mu+B,A\sum A^{T})$
- $x_{a}=(I_{m},0)\left(\begin{array}{ll}{x_{a}}\\{x_{b}}\end{array}\right)$ `
  - ` $E(x_{a})=E((I_{m},0)\left(\begin{array}{ll}{x_{a}}\\{x_{b}}\end{array}\right))=\mu_{a}$
  - ` $var(x_{a})=var((I_{m},0)\left(\begin{array}{ll}{\sum_{aa}}&{\sum_{ab}}\\{\sum_{ba}}&{\sum_{bb}}\end{array}\right))=\sigma_{aa}$
  - ` $x_{a}\sim N(\mu_{a},\sum_{aa})$
- 求 $P(x_{a}|x_{b})$
  - 构造 $x_{b-a}=x_{b}-x_{bb}\sum^{-1}x_{a}$ , $\mu_{b-a}=\mu_{b}-\mu_{bb}\sum^{-1}\mu_{a}$ , $\sum_{b-a}=\sum_{bb}-\sum_{ba}\sum^{-1}\sum_{ab}$ `
  - $E(x_{b}|x_{a})= E(x_{a})$ =

已知边缘概率密度求联合

已知 $p(x)=N(x|\mu,\lambda^{-1})$ , $p(x|y)=N(y|Ax+B,L^{-1})$ 。求 $p (y)$ , $p (x ∣ y)$
- 对于线性高斯 $y=AX+B+\epsilon,\epsilon\sim N(0,L^{-1}),\epsilon与x独立$
- 解 $E[y]=E[Ax+B+\epsilon ]=A\mu+B$ , $var[Y]=var[AX+B+\epsilon]=var[AX+B]+var[\epsilon]=A\lambda^{-1}A^{T}+L^{-1}$ ,得到 $y\sim N（A\mu+B,A\lambda^{-1}A^{T}+L^{-1}）$
- $z=\left(\begin{array}{ll}{x}\\{y}\end{array}\right)\sim N\left(\left[\begin{array}{ll}{\mu}\\{A\mu+b}\end{array}\right],\left[\begin{array}{ll}{\lambda^{-1}} & {\Delta} \\ {\Delta} & {L^{-1}+A\lambda^{-1}A^{T}+L^{-1}}\end{array}\right]\right)$ ，其中 $\Delta=cov(x,y)=E[(X-\mu)(y-E[y])^{T}]=E[(X-\mu)(AX-A\mu+\epsilon)]=E[(X-\mu)(X-\mu)^{T}A^{T}]=E[(X-\mu)(X-\mu)^{T}]A^{T}=Var[x]A^{T}=\lambda^{-1}A^{T}$
  -[x] $p(x|y)\sim$