本文是从一个小白的角度来解读最大后验估计(MAP), 以及解释MAP和MLE(最大似然估计)的区别
关于如何解读MLE,请阅读我的上一篇文章:
前置知识(可跳过)
由于最大后验估计会涉及贝叶斯公式,在这里补充一些概率论最基础的内容,已经掌握可以直接跳过。
条件概率
事件A和事件B是两个随机事件,并且事件B发生的概率P(B)不为0,那么在事件B发生的情况下,事件A发生的概率是: 。
这是很好理解的,分母代表事件B发生的情况,在事件B发生后,事件AB同时发生的事件所占的比重,就是B发生后,事件A发生的概率了。
条件概率的意义是由因索果,有了导致事件发生的原因,计算事件发生的可能性
贝叶斯公式
有了上面的条件概率,我们可以推导出贝叶斯公式
与条件概率不同,贝叶斯公式的意义是由果索因,我们知B已经发生,计算导致事件发生的某个原因(这里是原因A)的可能性
连续型随机变量,概率密度函数,分布函数
X是连续型随机变量,X的分布函数为F(x),概率密度函数为p(x),那么可以得到:
F(x)指的是分布在负无穷到x的范围的概率:
均匀分布
在区间[a,b]上均匀分布的概率密度函数是 :
最大后验估计(Maximum A Poteriori, MAP)
我们可以用一个最简单的转轮盘模型来解释:
假设我们有一个可转动的轮盘,轮盘只有两种转动结果:获奖/未获奖。
现在转了五次轮盘,我们已知的结果是三次获奖,两次未获奖(记为事件A)
求解获奖的概率是多少(记为 θ ,并且满足均值0.6,方差1的高斯分布),才能使得这样的结果的可能性最大?
首先我们可以表示出事件的先验概率(即在 θ 的前提下,发生事件A的概率):
求最大后验估计可以表示为(推导过程可见文章上面的贝叶斯公式):
由于事件A已经发生,并不影响计算,所以最终问题化简为只考虑似然函数和先验分布:
同时取对数,得到需要求最大值的部分为(省略了argmax):
对这部分求导,求零点,得到函数的极大值点:
解得在(0,1)范围内的值为0.8998
因此就可以根据MAP得到参数值为0.8998
与MLE不同,MAP需要考虑似然函数,以及参数的先验分布,如果我们可以肯定数据的先验分布是可靠的,就可以采用最大后验估计-MAP。