高斯分布及其极大似然估计

Adenialzz

已于 2022-07-30 23:23:48 修改

阅读量1.4k

点赞数 2

分类专栏：机器学习文章标签：概率论机器学习算法

于 2022-07-30 23:21:15 首次发布

本文链接：https://blog.csdn.net/weixin_44966641/article/details/126079315

版权

机器学习专栏收录该内容

27 篇文章 3 订阅

订阅专栏

高斯分布及其极大似然估计

高斯分布

一维高斯分布

一维高斯分布的概率密度函数为：
$N(\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2})$
多维高斯分布

$D$ 维高斯分布的概率密度函数为：
$N(\mu,\Sigma)=\frac{1}{(2\pi^{\frac{D}{2}}|\Sigma|^{\frac{1}{2}})}\exp(-\frac{(x-\mu)^2\Sigma^{-1}(x-\mu)}{2})$

极大似然估计

贝叶斯公式

贝叶斯公式如下：
$P(\theta|X)=\frac{P(X|\theta)P(\theta)}{P(X)}$
其中， $P(X|\theta)$ 称为后验概率， $P(\theta)$ 称为先验概率， $P(\theta|X)$ 成为似然函数。所谓极大似然估计，即使要让似然函数 $P(\theta|X)$ 取到最大，估计此时参数 $\theta$ 的值。详见：先验、后验、似然。

高斯分布的极大似然估计

假设我们有 $N$ 个观测数据 $X=(x_1,x_2,\dots,x_N)$ ，每个样本点是 $D$ 维的，则我们的数据是一个 $N\times D$ 的矩阵。而我们要估计的参数就是多维高斯分布中的均值 $\mu$ 和协方差矩阵 $\Sigma$ 。

这里我们以一维高斯分布为例进行推导。即每个样本点 $x_i$ 是一维的，而我们要估计的是一维高斯分布的均值 $\mu$ 和方差 $\sigma^2$ ，即 $\theta=(\mu,\sigma^2)$ 。

下面我们用极大似然估计来估计这两个参数：
$\hat{\theta}_{MLE}=\arg\max_\theta\mathcal{L(\theta)}$
为了方便计算，我们通常优化对数似然，有：
$\begin{align} \mathcal{L}(\theta)&=\log P(X|\theta)\\ &=\log \prod_{i=1}^NP(x_i|\theta)\\ &=\sum_{i=1}^N\log P(x_i|\theta)\\ &=\sum_{i=1}^N\log \frac{1}{\sqrt{2\pi}\sigma}\exp(\frac{(x_i-\mu)^2}{2\sigma^2})\\ &=\sum_{i=1}^N[\log \frac{1}{\sqrt{2\pi}}+\log \frac{1}{\sigma}-\frac{(x_i-\mu)^2}{2\sigma^2}]\\ \end{align}$
并且可以丢掉其中的常数项，则最终的优化目标：
$\hat{\theta}_{MLE}=\arg\max_\theta\sum_{i=1}^N[\log \frac{1}{\sigma}-\frac{(x_i-\mu)^2}{2\sigma^2}]\\$
接下来我们分别对 $\mu$ 和 $\sigma^2$ 求偏导，并令其等于零，得到估计值。

对于 $\mu$ ：
$\begin{align} \hat{\mu}_{MLE}&=\arg\max_{\mu}{\sum_{i=1}^N[-\frac{(x_i-\mu)^2}{2\sigma^2}]}\\ &=\arg\min_\mu\sum_{i=1}^N(x_i-\mu)^2 \end{align}$
求偏导：
$\frac{\partial\sum_{i=1}^N(x_i-\mu)^2}{\partial\mu}=\sum_{i=1}^N-2\times(x_i-\mu)\triangleq0$
得到：
$\hat{\mu}_{MLE}=\frac{1}{N}\sum_{i=1}^Nx_i$
对于 $\sigma^2$
$\hat{\sigma^2}=\arg\max_{\sigma^2}\sum_{i=1}^N[\log \frac{1}{\sigma}-\frac{(x_i-\mu)^2}{2\sigma^2}]=\arg\max_{\sigma^2}\mathcal{L}_{\sigma^2}$
求偏导：
$\frac{\partial{\mathcal{L}_{\sigma^2}}}{\partial{\sigma}}=\sum_{i=1}^N[-\frac{1}{\sigma}-\frac{1}{2}(x_i-\mu)\times(-2)]\triangleq0\\ \sum_{i=1}^N[-\sigma^2+(x_i-\mu)^2]\triangleq0\\ \sum_{i=1}^N\sigma^2=\sum_{i=1}^N(x_i-\mu)^2$
得到：
$\hat{\sigma^2}_{MLE}=\frac{1}{N}\sum_{i=1}^N(x_i-\hat{\mu}_{MLE})^2$

有偏估计和无偏估计

有偏估计（biased estimate）是指由样本值求得的估计值与待估参数的真值之间有系统误差，其期望值不是待估参数的真值。

在统计学中，估计量的偏差（或偏差函数）是此估计量的期望值与估计参数的真值之差。偏差为零的估计量或决策规则称为无偏的。否则该估计量是有偏的。在统计学中，“偏差”是一个函数的客观陈述。

我们分别计算 $\hat{\mu}_{MLE}$ 和 $\hat{\sigma^2}_{MLE}$ ，来考察这两个估计值是否是无偏的。

对于 $\hat{\mu}_{MLE}$
$E[\hat{\mu}_{MLE}]=E[\frac{1}{N}\sum_{i=1}^Nx_i]=\frac{1}{N}\sum_{i=1}^NEx_i=\mu$
可以看到， $\hat{\mu}_{MLE}$ 的期望就等于真值 $\mu$ ，所以它是无偏估计。

对于 $\hat{\sigma^2}_{MLE}$
$\begin{align} \hat{\sigma^2}_{MLE}&=\frac{1}{N}\sum_{i=1}^N(x_i-\hat{\mu}_{MLE})^2\\ &=\frac{1}{N}\sum_{i=1}^N(x_i^2-2\times x_i\times \hat{\mu}_{MLE}+\hat{\mu}_{MLE}^2)\\ &=\frac{1}{N}\sum_{i=1}^N(x_i^2-2\hat{\mu}_{MLE}^2+\hat{\mu}_{MLE}^2)\\ &=\frac{1}{N}\sum_{i=1}^N(x_i^2-\hat{\mu}_{MLE}^2) \end{align}$
求期望：
$\begin{align} E[\hat{\sigma^2}_{MLE}]&=E[\frac{1}{N}\sum_{i=1}^N(x_i^2-\hat{\mu}_{MLE}^2)]\\ &=E[\frac{1}{N}\sum_{i=1}^N((x_i^2-\mu^2)-(\hat{\mu}_{MLE}^2-\mu^2))]\\ &=E[\frac{1}{N}\sum_{i=1}^N(x_i^2-\mu^2)]-E[\frac{1}{N}\sum_{i=1}^N(\hat{\mu}_{MLE}^2-\mu^2)]\\ &=\frac{1}{N}\sum_{i=1}^NE(x_i^2-\mu^2)-\frac{1}{N}\sum_{i=1}^NE(\hat{\mu}_{MLE}^2-\mu^2)\\ &=\frac{1}{N}\sum_{i=1}^N[E(x_i^2)-E(\mu^2)]-\frac{1}{N}\sum_{i=1}^NE(\hat{\mu}_{MLE}^2)-E(\mu^2)\\ &=\frac{1}{N}\sum_{i=1}^N[E(x_i^2)-\mu^2]-\frac{1}{N}\sum_{i=1}^N[E(\hat{\mu}_{MLE}^2)-\mu^2]\\ &=\frac{1}{N}\sum_{i=1}^N[E(x_i^2)-(Ex_i)^2]-\frac{1}{N}\sum_{i=1}^N[E(\hat{\mu}_{MLE}^2)-E\hat{\mu}_{MLE}^2]\\ &=\frac{1}{N}\sum_{i=1}^NVar(x_i)-\frac{1}{N}\sum_{i=1}^NVar(\hat{\mu}_{MLE})\\ &=\frac{1}{N}\sum_{i=1}^N\sigma^2-\frac{1}{N}\sum_{i=1}^N\frac{\sigma^2}{N}\\ &=\frac{N-1}{N}\sigma^2 \end{align}$
其中 $Var(\hat\mu_{MLE})=Var(\frac{1}{N}\sum_{i=1}^Nx_i)=\frac{1}{N^2}\sum_{i=1}^NVar(x_i)=\frac{\sigma^2}{N}$ 。