极大似然估计
多数情况下,我们是根据条件/概率分布来推算结果,而极大似然估计就是反过来,即:已经知道了结果,然后寻求使该结果出现的可能性最大的条件/概率分布。
举个例子。
如果其他条件都固定的话“抽烟者发生肺癌的概率是不抽烟者的5倍”,那么如果我已经知道有个人是肺癌,我想问这个人抽烟还是不抽烟时你怎么判断?我想你会说这个人抽烟,因为这个条件是其患肺癌的最大可能。
代入些数学用语描述上面的例子就是:
输入:
1,观测结果集合T = {此人患肺癌}
2,已知是否患肺癌满足这个分布:抽烟者发生肺癌的概率是不抽烟者的5倍(如:知道结果符合高斯分布f(x | u,σ2),当然了,我们不知道该分部的参数,不然还求什么极大似然....)
求:
这个分布的参数θ(如:知道结果符合高斯分布,但却不知道高斯分布的参数u,σ2,目的是求参数)
我们把上面的内容再数学化些:
输入:
1,样本集合T={x1,x2, ..., xn},且样本集合中的元素相互独立。
2,该样本集合服从某分布:p(x| θ)(假设符合高斯分布f(x | u,σ2),那θ=( u,σ2)。
求解:
得到该样本集合T的极大似然估计θ(即:当θ是多少时,以θ为参数的分布最能拟合样本集合。假设样本集合符合高斯分布,那就是求u,σ2)。
到此,极大似然估计是怎么回事应该清楚了,下面看看如何求。
极大似然估计,极大似然估计,既然是求极大,那当然离不开求导/求偏导了,为此我们就构建个关于θ的函数吧。
首先,既然是求最可能得到该样本集合的θ,那我们得把得到该样本集合中某个元素xi的概率表示出来,记为:P(xi; θ),其中i = 1, 2, ..., n,θ服从某分布(别问我服从什么分布,这里是为了讲解,应用时自己根据情况判断)。
既然样本集合中的元素相互独立,那样本集合的联合概率就是:
但上面的式子写起来好麻烦啊,那么我们想办法用个方式表示上面的式子吧。嗯....用L(x1, x2, ..., xn; θ)怎么样?....每次都要写x1, x2, ..., xn好麻烦。这个只是求θ,那就用L(θ)表示吧,于是:
上面的L(θ)就是似然函数。
不过上面的L(θ)是连乘的,有时为了便于分析,会对L(θ)取对数,将其变成连加的:
PS:其实对L(θ)取对数将其变成连加的H(θ)还有一个原因:通常L(θ)中每个p(xi; θ)都很小,许多很小的数字相乘起来在计算机里很容易造成浮点数下溢,所以对其取对数将其变成连加的。
似然函数定义好了,那我们的最终目的也用纯数学语言再次表示下吧,即,我们需要求最大似人估计量:
θ*= argmaxL(θ) 或θ* = argmaxH(θ)
最后,总结下求最大似然估计值的一般步骤:
1,写出似然函数;
2,对似然函数取对数,并整理;
3,求导数/偏导数,令其为0,得到似然方程;
4,解似然方程,得到的参数即为所求。