机器学习实验四：朴素贝叶斯

U·_·U

于 2024-05-14 09:58:30 发布

阅读量993

点赞数 20

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_73926887/article/details/138808052

版权

一、引言

贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素贝叶斯（Naive Bayes）朴素贝叶斯分类是贝叶斯分类中最简单的，它是经典的机器学习算法之一，也是为数不多的基于概率论的分类算法。由于朴素贝叶斯计算联合概率，所以朴素贝叶斯模型属于生成式模型。经典应用案例包括：文本分类、垃圾邮件过滤等。

二、贝叶斯

2.1 贝叶斯公式

贝叶斯公式又被称为贝叶斯规则，是概率统计中的应用所观察到的现象对有关概率分布的主观判断（先验概率）进行修正的标准方法。如果你看到一个人总是做一些好事，则那个人多半会是一个好人。这就是说，当你不能准确知悉一个事物的本质时，你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。用数学语言表达就是：支持某项属性的事件发生得愈多，则该属性成立的可能性就愈大。贝叶斯公式中涉及到先验概率、后验概率、条件概率等，具体解释如下。

先验概率：即基于统计的概率，是基于以往历史经验和分析得到的结果，不需要依赖当前发生的条件。

后验概率：则是从条件概率而来，由因推果，是基于当下发生了事件之后计算的概率，依赖于当前发生的条件。

条件概率：记事件A发生的概率为P(A)，事件B发生的概率为P(B)，则在B事件发生的前提下，A事件发生的概率即为条件概率，记为P(A|B)。

联合概率：表示两个事件共同发生的概率。A与B的联合概率表示为P(AB),或者P(A,B),或者P（A∩B）。

贝叶斯公式：贝叶斯公式便是基于条件概率P(B|A)求得联合概率，再求得P(A|B)。既可以将贝叶斯公式看成如下结果：

2.2 朴素贝叶斯

在机器学习中如KNN、逻辑回归、决策树等模型都是判别方法，也就是直接学习出特征输出Y和特征X之间的关系(决策函数Y= f(X)或者条件分布P(Y|X))。但朴素贝叶斯是生成方法，它直接找出特征输出Y和特征X的联合分布P(X,Y)，进而通过 $P\left ( Y|X \right )=\frac{P\left ( X,Y \right )}{P\left ( X \right )}$ 计算得出结果判定。

朴素贝叶斯分类器是一类简单的概率分类器，在强（朴素）独立性假设的条件下运用贝叶斯公式来计算每个类别的后验概率，假设每个特征之间没有联系。

2.2.1 特征条件假设

假设每个特征之间没有联系，给定训练数据集，其中每个样本 $x$ 都包括 $n$ 维特征，即 $x = ({x_1},{x_2}, \cdots ,{x_n})$ ，类标记集合含有 $k$ 种类别，即 $y = ({y_1},{y_2}, \cdots ,{y_k})$ 。

对于给定的新样本 $x$ ，判断其属于哪个标记的类别，根据贝叶斯定理，可以得到 $x$ 属于 ${y_k}$ 类别的概率 $P\left ( y_{k} \right|x )$ 。

通俗的解释：已知结果(先验概率)，结果与在此结果为条件下出现的现象（条件概率）相乘的到结果和现象同时发生的联合概率。除以现象单独发生的概率，就得出在某现象发生的条件下，发生结果的概率（后验概率）。

后验概率最大的类别记为预测类别，即： $\arg maxP\left ( y_{k} \right |x)$ 。

朴素贝叶斯算法对条件概率分布作出了独立性的假设，通俗地讲就是说假设各个维度的特征 ${x_1},{x_2}, \cdots ,{x_n}$ 互相独立，在这个假设的前提上，条件概率可以转化为：

$P\left ( x|y_{k} \right )=P\left ( x_{1},x_{2} ,...,x_{n}|y_{k}\right )=\prod_{i=1}^{n}P\left ( x_{i} |y_{k}\right )$

代入上面贝叶斯公式中，得到：

$P\left ( y_{k}|x \right )=\frac{P\left ( y_{k} \right )\cdot \prod_{i=1}^{n}P\left ( x_{i}|y_{k} \right )}{\sum_{k}^{}P\left ( y_{k} \right )\cdot \prod_{i=1}^{n}P\left ( x_{i}|y_{k} \right ) }$

于是，朴素贝叶斯分类器可表示为：

$f\left ( x \right )=\arg maxP\left ( y_{k}|x \right )=\arg max\frac{P\left ( y_{k} \right )\cdot \prod_{i=1}^{n}P\left ( x_{i}|y_{k} \right )}{\sum_{k}^{}P\left ( y_{k} \right )\cdot \prod_{i=1}^{n}P\left ( x_{i}|y_{k} \right ) }$

因为对所有的 $y_k$ ，上式中的分母的值都是一样的，所以可以忽略分母部分，朴素贝叶斯分类器最终表示为：

$f\left ( x \right )=\arg maxP\left ( y_{k} \right )\cdot \prod_{i=1}^{n}P\left ( x_{i}|y_{k} \right )$

适用范围：

朴素贝叶斯只适用于特征之间是条件独立的情况下，否则分类效果不好，这里的朴素指的就是条件独立。
朴素贝叶斯主要被广泛地使用在文档分类中。

朴素贝叶斯常用的三个模型有：

高斯模型：处理特征是连续型变量的情况。
多项式模型：最常见，要求特征是离散数据。
伯努利模型：要求特征是离散的，且为布尔类型，即true和false，或者1和0。

2.2.2 拉普拉斯平滑

拉普拉斯平滑是一种用于解决朴素贝叶斯算法中零概率问题的技术。在计算条件概率时，有些情况下会出现某个特征在某个类别下没有出现过的情况，导致概率为零，这就无法使用贝叶斯公式进行计算。为了避免这种情况，可以对概率进行平滑处理，使得每个特征在每个类别下至少出现一次，从而避免概率为零的情况。而拉普拉斯平滑就是一种常用的平滑方法，它在计算概率时将每个特征的计数都加上一个常数k，从而保证每个特征至少出现k次。

在进行拉普拉斯平滑时，条件概率的计算会涉及多个特征的连乘积，这容易导致数值过小而出现下溢（underflow）或者上溢（overflow）的问题。因此，为了避免这种问题，在实际应用中通常会使用对数操作，将连乘积转换成加和运算，从而方便计算。