维基百科:在统计学中,最大似然估计(英语:Maximum Likelihood Estimation,简作MLE),也称极大似然估计,是用来估计一个概率模型的参数的一种方法
极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!
换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。
某件事已经发生了,我们知道这件事的概率模型,但是不知道具体的参数,我们需要找到使这件事发生概率最大对应的模型参数。
原理:
给定一个概率分布,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为
,以及一个分布参数
,我们可以从这个分布中抽出一个具有个值的采样
,利用
计算出其似然函数:
若是离散分布,
即是在参数为
时观测到这一采样的概率。若其是连续分布,
则为
联合分布的概率密度函数在观测值处的取值。一旦我们获得
,我们就能求得一个关于
的估计。最大似然估计会寻找关于
的最可能的值(即,在所有可能的
取值中,寻找一个值使这个采样的“可能性”最大化)。从数学上来说,我们可以在
的所有可能取值中寻找一个值使得似然函数取到最大值,这个使可能性最大的
值即称为
的最大似然估计。由定义,最大似然估计是样本的函数。
可以这么理解,这一事件的概率密度函数是已知的,我们知道样本(采样点)服从二次函数:,我们当前知道这个函数上的几个离散点,如(1,2), (2,4), (5,6),(2,5),现在我们要求一个最优的a,b,更加能贴近每个点,目标是使整体的误差最小,极大似然估计的原理和这个相同。
举例说明(来源维基百科):
假设一个盒子中有无数个硬币,硬币抛出正面的概率为(硬币不是均匀的,假设对于任何的p,都有这样的硬币存在),
,我们把这个硬币抛80次(即,我们获取一个采样
并把正面的次数记下来,正面记为H,反面记为T)。因此,这里的
即相当于上边的
。假设我们抛出了49个正面,31个反面,即49次H,31次T。
· 我们来求其似然函数(这件事发生概率)的最大值:
似然函数可以理解为:我们要用未知参数的模型、事件发生的次数来把这个事件发生的概率表示出来,然后求其最大值对应的参数值
其中, 我们可以使用微分法来求极值。方程两边同时对
取微分,并使其为零。
其解为,
,以及
.使可能性最大的解显然是
,因为
,
都会使, 而
能使
为最大值,因为函数的最大值在零点处,另外两个零点都不是函数的最大值,那么这个一定是函数的最大值。因此我们说最大似然估计值为
,即这个盒子中硬币正面朝上的概率为
。
最大似然估计出来的参数值,只有当实验次数很大时才具有一定的可信度,假如上面的例子实验了1000次,发现正面朝上的次数为501次,反面朝上的概率为499,那么采用最大似然估计出来的正面朝上的概率值, 这个值会更加接近真实的模型参数值。