极大似然估计，最大后验概率等比较不错的文章

头发是我最后的倔强

已于 2022-11-26 18:35:14 修改

阅读量613

点赞数 1

分类专栏：笔记文章标签：算法人工智能

于 2022-10-20 17:40:44 首次发布

本文链接：https://blog.csdn.net/weixin_54025765/article/details/127429809

版权

笔记专栏收录该内容

15 篇文章 0 订阅

订阅专栏

一文搞懂极大似然估计 - 知乎

极大似然估计与最大后验概率估计 - 知乎 👍👍👍

线性回归求解的两种表示（最小化均方误差和基于高斯分布的极大似然估计） - 知乎【式3 ，4不是很理解，有点模糊】

L1正则化与L2正则化 - 知乎 👍

----------------------------2022年11月26日16:34:05-----------------------------------------

【模式识别】最小风险贝叶斯决策_番茄发烧了的博客-CSDN博客_最小风险贝叶斯决策

概率学派和统计学派

对于概率看法不同：频率学派和贝叶斯学派 =-=有趣

摘一些有趣的东西：

【链接2】

① 频率学派

他们认为世界是确定的。他们直接为事件本身建模，也就是说事件在多次重复实验中趋于一个稳定的值p，那么这个值就是该事件的概率。

他们认为模型参数是个定值，希望通过类似解方程组的方式从数据中求得该未知数。这就是频率学派使用的参数估计方法-极大似然估计（MLE），这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。

② 贝叶斯派

他们认为世界是不确定的，因获取的信息不同而异。假设对世界先有一个预先的估计，然后通过获取的信息来不断调整之前的预估计。他们不试图对事件本身进行建模，而是从旁观者的角度来说。因此对于同一个事件，不同的人掌握的先验不同的话，那么他们所认为的事件状态也会不同。

他们认为模型参数源自某种潜在分布，希望从数据中推知该分布。对于数据的观测方式不同或者假设不同，那么推知的该参数也会因此而存在差异。这就是贝叶斯派视角下用来估计参数的常用方法-最大后验概率估计（MAP），这种方法在先验假设比较靠谱的情况下效果显著，随着数据量的增加，先验假设对于模型参数的主导作用会逐渐削弱，相反真实的数据样例会大大占据有利地位。极端情况下，比如把先验假设去掉，或者假设先验满足均匀分布的话，那她和极大似然估计就如出一辙了。

经验风险最小化与结构风险最小化是对于损失函数而言的。可以说经验风险最小化只侧重训练数据集上的损失降到最低；而结构风险最小化是在经验风险最小化的基础上约束模型的复杂度，使其在训练数据集的损失降到最低的同时，模型不至于过于复杂，相当于在损失函数上增加了正则项，防止模型出现过拟合状态。这一点也符合奥卡姆剃刀原则：如无必要，勿增实体。

① 极大似然估计（MLE）

-她是频率学派模型参数估计的常用方法。

-顾名思义：似然，可以简单理解为概率、可能性，也就是说要最大化该事件发生的可能性

-她的含义是根据已知样本，希望通过调整模型参数来使得模型能够最大化样本情况出现的概率。

② 最大后验概率估计（MAP）

-她是贝叶斯派模型参数估计的常用方法。

-顾名思义：就是最大化在给定数据样本的情况下模型参数的后验概率

-她依然是根据已知样本，来通过调整模型参数使得模型能够产生该数据样本的概率最大，只不过对于模型参数有了一个先验假设，即模型参数可能满足某种分布，不再一味地依赖数据样例（万一数据量少或者数据不靠谱呢）。

最大后验估计相对于最大似然估计可以看作多了参数的直接观测值。

【链接3】

用均方误差最小化求解线性回归，和假设预测误差符合高斯分布，然后利用高斯分布的极大似然估计求解线性回归，最后得到的结果相同

【链接4】