机器学习：最大后验估计(MAP)与结构最小化误差(经验最小化误差+模型复杂度函数)之间的转换推导

最新推荐文章于 2023-09-06 17:30:05 发布

PinkGranite

最新推荐文章于 2023-09-06 17:30:05 发布

阅读量638

点赞数 1

分类专栏：机器学习文章标签：概率论机器学习算法统计学

本文链接：https://blog.csdn.net/weixin_43860783/article/details/119956923

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

李航老师的《统计学习方法》书中第一章第三小节，在对机器学习方法=模型+策略+算法这一概念的阐述中，提到了频率派方法与贝叶斯派的共通之处，即经验最小化误差在特定条件下等价于最大似然估计，而结构最小化误差则等价于特定条件下的最大后验估计。在网站上进行了一下简答的检索，发现一些对于这个问题的推导回答并不多，或者在一些方面与我自己所想存在部分偏差。因此本篇文章对MAP与结构误差最小化之间的转换进行一个简单的推导，如有不正确的地方，请告知！

结构化误差公式：

$\min_{f\in{F}}\frac{1}{N}\sum_{i=1}^{N}L\left(y_i, f(x_i)\right)+\lambda J(f)$

其中 $L$ 表示 $L o s s F u n c t i o n$ ，作为衡量单个样本预测准确度的直接指标， $J (f)$ 为正则项，表示模型的复杂度。

最大后验估计

$\begin{aligned} \hat{\theta}\quad &=\quad argmax\quad P(\theta\ |\ X) \\ & = \quad argmax\quad \frac{P(\theta,X)}{P(X)} \\ & = \quad argmax\quad \frac{P(X|\theta) \cdot P(\theta)}{P(X)} \\ & = \quad argmax\quad ln\ P(X|\theta)+ln\ P(\theta) -ln\ P(X) \\ & \text {P(X)为数据分布，对theta无影响；P(theta)为先验分布，P(X|theta)为似然} \\ & = \quad argmax \quad ln\ P(X|\theta)+ln\ P(\theta) \\ & = \quad argmax \quad ln\ [P(x_1|\theta)\cdot P(x_2|\theta)\cdot \cdots P(x_N|\theta)]+ln\ P(\theta) \\ & = \quad argmax \quad \sum ln\ P(x_i|\theta)+ln\ P(\theta) \\ & = \quad argmin \quad -\sum ln\ P(x_i|\theta)-ln\ P(\theta) \\ & \text{可以看出，最大后验估计可以被表示为两项：第一项为对数似然偏差，第二项为先验概率的对数形式} \end{aligned}$

至此，对最大后验概率MAP与最小化结构误差之间转换推导就基本结束了。得到的结论是：当结构化方程中的损失函数以对数似然损失函数表述，模型复杂度方程以模型的先验概率进行表述时，二者可以进行转换。

疑问：为什么模型的复杂度可以由先验概率进行表述？
首先参考李航老师给出的理由：“我们可以假设复杂的模型具有较小的先验，而简单模型则具有较大的先验”。
以下为我的个人见解，仅供参考讨论：上面的说法乍一听感觉并不十分有道理，但是仔细想想，结构最小化方法添加了模型复杂度作为衡量的标准之一：其依据奥卡姆剃刀定律，认为简单的模型具有更好地泛化功能。假设以上标准成立，那么我们可以用什么方法来表征模型复杂度呢？事实上，如果只是想形成结构最小化策略，那么我们有很多的方法去设计这个复杂度函数。因此我们需要思考的是：为什么先验概率能够有效地表征一个模型的复杂度。
先验概率可以表示为 $P(\theta)$ ，其中 $\theta$ 是决定模型具体形式的参数向量，因此 $P(\theta)$ 本身表征的是 $\theta$ 在模型的假设空间中出现的可能性。能够想见的是：复杂模型的假设空间较简单模型更加复杂，因此具体的参数向量出现的可能性（先验）复杂模型较简单模型要小。（形象一点表述：如果简单模型的参数空间是一个平面，那么复杂模型的参数空间则可能是一个立方体）