3.2 机器学习 --- 朴素贝叶斯

紫眸猫星人

已于 2022-11-15 23:53:15 修改

阅读量391

点赞数

文章标签：人工智能

于 2022-11-08 19:34:29 首次发布

本文链接：https://blog.csdn.net/woaixuexi6666/article/details/127757067

版权

3.2 机器学习 — 朴素贝叶斯

口述朴素贝叶斯的条件概率公式和全概率公式
- 条件概率分布：相当于事件B发生的情况下事件A发生的概率等于事件A发生的情况下事件B发生的概率乘以事件A发生的概率除以事件B发生的概率。
- 全概率公式
  
  相当于是对样本空间Ω进行划分，划分成B1,B2,B3,…Bn, 也说B1,B2,B3,…Bn, 是一个完备的事件组，对任意一个事件C，事件C发生的概率就是在各个划分空间下C 发生的概率与各个BI发生的概率的乘积的和
- 朴素贝叶斯的条件概率分布
  - 与全概率解决的问题相反，贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因（即大事件A已经发生的条件下，分割中的小事件Bi的概率，设B1，B2… 是样本空间Ω的划分，那么对任意UI个事件A,有
上式子是为贝叶斯公式，贝叶斯公式就是条件概率，乘法公式、全概率公式的组合。

Bi常被视为导致试验A发生的原因，P(Bi)表示各种原因发生的可能性大小，故称为先验概率。

P(Bi|A)(i=1,2,…)则反应当试验产生了结果A之后，再对各种原因概率的新认识，故称为后验概率。
正则化项L1，L2的朴素贝叶斯角度理解

正则化(regularization)是防止模型过拟合(overfitting)的有效方式之一。常用的正则化包括L1正则和L2正则，我们知道使用L1正则化的回归对应LASSO(最小绝对收缩选择因子)回归，使得参数稀疏化，倾向于产生稀疏模型，是一种嵌入式特征选择方法，其特征选择过程和学习器训练过程融为一体，同时完成。而L2正则化对应岭回归，倾向于选择使各个参数尽可能小的模型，L2正则化更平滑，在可解释性方面差于L1正则化，但是L2能更好的防止过拟合。下面主要从贝叶斯理论的角度理解正则化。在假设了数据集的误差服从Gaussian分布的条件下，通过最大似然估计(MLE)最大化似然函数（3）等价于最小化平方损失（1），进一步地我们可以得到一个普遍的结论：最小化经验损失（empirical loss）对应于贝叶斯框架下最大化似然函数。上述分析是在没有假设参数先验的情况下进行的，很容易产生过拟合，下面我们对参数w引入先验分布，以此来降低模型的复杂度。

通过计算发现，L2正则化等价于对参数引入Gaussian先验分布。ridge regression 并不具有产生稀疏解的能力，也就是说参数并不会真出现很多零。假设我们的预测结果与两个特征相关，L2正则倾向于综合两者的影响，给影响大的特征赋予高的权重；而L1正则倾向于选择影响较大的参数，而舍弃掉影响较小的那个。实际应用中 L2 正则表现往往会优于 L1正则，但 L1 正则便于产生稀疏模型，便于进行特征选择。正则化参数等价于对参数引入先验分布，使得模型复杂度变小（缩小解空间），对于噪声以及outliers的鲁棒性增强（泛化能力）。整个最优化问题从贝叶斯观点来看是一种贝叶斯最大后验估计，其中正则化项对应后验估计中的先验信息，损失函数对应后验估计中的似然函数，两者的乘积即对应贝叶斯最大后验估计的形式。

L2正则化相当于为参数w加入了高斯分布的先验。