统计学习方法 - 朴素贝叶斯

最新推荐文章于 2022-11-29 22:48:43 发布

浮汐

最新推荐文章于 2022-11-29 22:48:43 发布

阅读量279

点赞数

分类专栏： ML

本文链接：https://blog.csdn.net/xfxlesson/article/details/108726468

版权

ML 专栏收录该内容

11 篇文章

订阅专栏

引入问题：一机器在良好状态生产合格产品几率是 90%，在故障状态生产合格产品几率是 30%，机器良好的概率是 75%。若一日第一件产品是合格品，那么此日机器良好的概率是多少。

贝叶斯模型

生成模型与判别模型

判别模型，即要判断这个东西到底是哪一类，也就是要求y，那就用给定的x去预测。
生成模型，是要生成一个模型，那就是谁根据什么生成了模型，谁就是类别y，根据的内容就是x
以上述例子，判断一个生产出来的零件是模块手还是模块脚，那么就是拿生产出零件去对照过去生产出的零件模块。生成模型是给了一个零件手，研究手的特征，然后生成判断研究新产出的是不是手模块。
判断一个新生产出的模块就是将新生产的模块放入两个模块中，哪个概率大就是哪个类别。

贝叶斯理论

贝叶斯观点是先主观有自己的判断做为一个初始的概率，然后根据每次出现的情况对初始的概率进行修正，随着信息的增多，慢慢接近真是的概率。
例如领导寻班时问：“今天机器运行怎么样？”，你拿着刚生产出好的模块说：“今天做出来的模块是好的，机器应该也是好的。”这个就是基于主观的初始概率，当然机器也有可能不是在良好运行状态下生产的，生产出的模块是支持机器运行良好的假设。

贝叶斯公式
在这里插入图片描述
在这里，我们想要看产品合格的情况下，机器良好运行的概率，那么：
A是要考察的目标事件：机器是否运行良好。
P(A) 是这个目标事件的先验概率，又叫初始概率：机器运行良好的概率。
B 是新出现的一个新事件：生产出的产品是否良好。
P(A|B) 的意思是当B出现时A的概率，在这里就是我们需要的后验概率：产品合格时机器运行良好的概率。
P(B|A) 是当A出现时B的概率：机器运行良好时，产品良好的概率。
P(B) 是B出现的概率：即产品合格的先验概率是多少，这里一定要注意不能因为你手上拿了一件合格产品，就说P(B)是100％，实际上这个概率是要根据以下这个公式（即全概率公式）计算出来的：
P(B) = P(B|A) * P(A) + P(B|A_) * P(A_)。
P(B|A) / P(B) 可以看作一个修正因子。

对贝叶斯公式的理解可以看做：

后验概率 = 先验概率 x 修正因子

使用条件概率
想像一个矩形，它代表所有的情况。在其中用一个圆a表示A事件发生的情况。圆b表示B事件。他们的相交部分就是AB同时发生的情况。
在这里插入图片描述
在事件B发生的情况下，事件A发生的概率就是P(A∩B)除以P(B)

因此，

同理可得，

所以，

贝叶斯准则告诉我们如何交换条件概率中的条件与结果，即如果已知 P(x|c)，要求 P(c|x)，那么可以使用下面的计算方法
在这里插入图片描述

朴素贝叶斯
我们假设特征之间相互独立。所谓独立(independence) 指的是统计意义上的独立，即一个特征或者单词出现的可能性与它和其他单词相邻没有关系，比如说，“我们”中的“我”和“们”出现的概率与这两个字相邻没有任何关系。这个假设正是朴素贝叶斯分类器中朴素(naive) 一词的含义。朴素贝叶斯分类器中的另一个假设是，每个特征同等重要。

极大似然估计
在这里插入图片描述
总结起来，最大似然估计的目的就是：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。

原理：极大似然估计是建立在极大似然原理的基础上的一个统计方法，是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。通过若干次试验，观察其结果，利用试验结果得到某个参数值能够使样本出现的概率为最大，则称为极大似然估计。

贝叶斯估计

用极大似然估计可能会出现索要估计的概率值为0的情况。这时会影响到后验概率的计算结果，使分类产生偏差。解决这一问题的方法是采用贝叶斯估计。具体地，条件概率的贝叶斯估计是：
在这里插入图片描述
式子入>=0 等价于在随机变量各个取值的频数上赋予一个正数入>0。当入 = 0时就是极大似然估计。常取入 = 1，这时称为拉普拉斯平滑。