1. 概述
最大似然估计和最大后验估计是两种点估计的参数估计方法,前者来自频率学派,后者来自贝叶斯学派,适用于通过观测数据去推断模型的参数。这两种方法并没有好坏之分,而是对于模型的认识不同,频率学派认为模型中的参数是固定的、有真值的,贝叶斯学派认为模型中的参数和观测量一样也是随机变量(换句话说,参数不是一个客观存在的固定值,可以取很多不同的值,且具有相应的可能性)。
2. 例子
这会带来哪些不同呢?举个抛硬币的例子来说,如果抛了100次,正面向上70次,则根据频率学派的最大似然估计计算出来的“硬币模型”的参数theta(正面向上的概率)为0.7,而贝叶斯学派的最大后验估计则会在先验知识“一般情况下抛硬币的正反面概率相同”的基础上,根据观测数据对模型参数的概率分布进行修正,计算出的theta会位于0.5-0.7之间。
3. 方法选择
从这个例子来看,好像最大后验估计更准确一些,但是最大后验估计对于先验分布的准确性有一定的要求,而最大似然估计则完全根据实验结果来对模型参数进行推断,所以在两者方法选择上,我认为有2点需要着重考虑的:(1)是否有待估计量的先验分布(2)实验数据是否充足。实际应用当中,往往我们正是希望求出模型中的待估计量(比如估计机器人的位姿和环境中的路标),对于模型中的待估计量是未知的,即并没有良好的先验分布,所以一般通过MLE去解决参数估计问题。
p.s.
虽然现在不做机器学习方向,但是当时学到的loss function中的L1L2正则化,我感觉其实和MAP中加入先验分布的约束是异曲同工的(MAP加入先验后取负对数其实相当于在目标函数中加了一个关于参数的函数),欢迎ML方向同学讨论!