通俗理解极大似然估计

最新推荐文章于 2024-07-24 15:56:49 发布

Mingsheng Zhang

最新推荐文章于 2024-07-24 15:56:49 发布

阅读量1.1w

点赞数 7

文章标签：转载https://zhuanlan.zhihu.com/p

本文链接：https://blog.csdn.net/youhuakongzhi/article/details/83537856

版权

维基百科：在统计学中，最大似然估计（英语：Maximum Likelihood Estimation，简作MLE），也称极大似然估计，是用来估计一个概率模型的参数的一种方法

极大似然估计，通俗理解来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值！

换句话说，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。

某件事已经发生了，我们知道这件事的概率模型，但是不知道具体的参数，我们需要找到使这件事发生概率最大对应的模型参数。

原理：

给定一个概率分布 $D$ ，已知其概率密度函数（连续分布）或概率质量函数（离散分布）为 $f_{D}$ ，以及一个分布参数 $\theta$ ，我们可以从这个分布中抽出一个具有个值的采样 $X_{1},X_{2},\ldots ,X_{n}$ ，利用 $f_{D}$ 计算出其似然函数：

${\mbox{L}}(\theta \mid x_{1},\dots ,x_{n})=f_{\theta }(x_{1},\dots ,x_{n}).$

若 $D$ 是离散分布， $f_{\theta }$ 即是在参数为 $\theta$ 时观测到这一采样的概率。若其是连续分布， $f_{\theta }$ 则为 $X_{1},X_{2},\ldots ,X_{n}$ 联合分布的概率密度函数在观测值处的取值。一旦我们获得 $X_{1},X_{2},\ldots ,X_{n}$ ，我们就能求得一个关于 $\theta$ 的估计。最大似然估计会寻找关于 $\theta$ 的最可能的值（即，在所有可能的 $\theta$ 取值中，寻找一个值使这个采样的“可能性”最大化）。从数学上来说，我们可以在 $\theta$ 的所有可能取值中寻找一个值使得似然函数取到最大值，这个使可能性最大的 ${\widehat {\theta }}$ 值即称为 $\theta$ 的最大似然估计。由定义，最大似然估计是样本的函数。

可以这么理解，这一事件的概率密度函数是已知的，我们知道样本（采样点）服从二次函数： $ax^{2}+bx+c =0$ ，我们当前知道这个函数上的几个离散点，如（1,2），（2,4), (5,6),(2,5),现在我们要求一个最优的a，b，更加能贴近每个点，目标是使整体的误差最小，极大似然估计的原理和这个相同。

举例说明（来源维基百科）：

假设一个盒子中有无数个硬币，硬币抛出正面的概率为 $p$ （硬币不是均匀的，假设对于任何的p,都有这样的硬币存在）， $0\leq p\leq 1$ ，我们把这个硬币抛80次（即，我们获取一个采样 $x_{1}={\mbox{H}},x_{2}={\mbox{T}},\ldots ,x_{80}={\mbox{T}}$ 并把正面的次数记下来，正面记为H，反面记为T）。因此，这里的 $p$ 即相当于上边的 $\theta$ 。假设我们抛出了49个正面，31个反面，即49次H，31次T。

· 我们来求其似然函数（这件事发生概率）的最大值：

${\begin{matrix}{\mbox{L}}(\theta )&=&f_{D}({\mbox{H=49,T=80-49}}\mid p)={80 \choose 49}p^{49}(1-p)^{31}\\\end{matrix}}$

似然函数可以理解为：我们要用未知参数的模型、事件发生的次数来把这个事件发生的概率表示出来，然后求其最大值对应的参数值

其中 $0\leq p\leq 1$ ，我们可以使用微分法来求极值。方程两边同时对 $p$ 取微分，并使其为零。

${\begin{matrix}0&=&{80 \choose 49}{\frac {d}{dp}}\left(p^{49}(1-p)^{31}\right)\\&&\\&\propto &49p^{48}(1-p)^{31}-31p^{49}(1-p)^{30}\\&&\\&=&p^{48}(1-p)^{30}\left[49(1-p)-31p\right]\\\end{matrix}}$

其解为 $p=0$ , $p=1$ ，以及 $p=49/80$ .使可能性最大的解显然是 $p=49/80$ ,因为 $p=0$ , $p=1$

都会使 $L(\theta )=0$ , 而 $p=49/80$ 能使 $L(\theta )$ 为最大值，因为函数的最大值在零点处，另外两个零点都不是函数的最大值，那么这个一定是函数的最大值。因此我们说最大似然估计值为 ${\widehat {p}}=49/80$ ，即这个盒子中硬币正面朝上的概率为 ${\widehat {p}}=49/80$ 。

最大似然估计出来的参数值，只有当实验次数很大时才具有一定的可信度，假如上面的例子实验了1000次，发现正面朝上的次数为501次，反面朝上的概率为499，那么采用最大似然估计出来的正面朝上的概率值 ${\displaystyle {\widehat {p}}=501/1000} = 0.501$ ，这个值会更加接近真实的模型参数值。

推荐：极大似然估计详解_知行流浪-CSDN博客_极大似然估计

原文：一文搞懂极大似然估计 - 知乎

最大似然估计 - 维基百科，自由的百科全书 (wikipedia.org)

Mingsheng Zhang

关注

7
点赞
踩
57

收藏

觉得还不错? 一键收藏
5
评论
通俗理解极大似然估计

极大似然估计，通俗理解来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值！换句话说，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。可能有小伙伴就要说了，还是有点抽象呀。我们这样想，一当模型满足某个分布，它的参数值我通过极大似然估计法求出来的话。如果我通过极大似然估计，得到模型中参数和的值，那么这个模型的均值...
复制链接

扫一扫