以下转自 https://zhuanlan.zhihu.com/p/26614750
极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!
换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。
可能有小伙伴就要说了,还是有点抽象呀。我们这样想,一当模型满足某个分布,它的参数值我通过极大似然估计法求出来的话。比如正态分布中公式如下:
如果我通过极大似然估计,得到模型中参数\mu和\sigma 的值,那么这个模型的均值和方差以及其它所有的信息我们是不是就知道了呢。确实是这样的。
极大似然估计中采样需满足一个重要的假设,就是所有的采样都是独立同分布的。
下面我通过俩个例子来帮助理解一下最大似然估计
但是首先看一下似然函数 p(x|\theta) 的理解:来自下面博客:
详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解
对于这个函数: p(x|\theta) 输入有两个:x表示某一个具体的数据; \theta 表示模型的参数
如果 \theta 是已知确定的, x 是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点 x ,其出现概率是多少。
如果 x 是已知确定的, \theta 是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现 x 这个样本点的概率是多少。
这有点像“一菜两吃”的意思。其实这样的形式我们以前也不是没遇到过。例如, f(x,y)=x^y , 即x的y次方。如果x是已知确定的(例如x=2),这就是 f(y)=2^y , 这是指数函数。 如果y是已知确定的(例如y=2),这就是 f(x)=x^2 ,这是二次函数。同一个数学形式,从不同的变量角度观察,可以有不同的名字。
这么说应该清楚了吧? 如果还没讲清楚,别急,下文会有具体例子。
https://blog.csdn.net/zouxy09/article/details/8537620