自实现朴素贝叶斯分类器with案例：基于SMS Spam Collection数据集的广告邮件分类

原创

已于 2023-05-03 17:19:07 修改 · 2.7k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#分类 #机器学习 #算法 #贝叶斯分类 #python

于 2023-04-29 19:09:30 首次发布

贝叶斯分类器

首先要理解贝叶斯决策的理论依据，引用西瓜书上的原话：对于分类任务，在所有相关概率都已知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

然后引入我们很熟悉的贝叶斯公式：
$P(c\mid \boldsymbol{x}) = \frac{P(c)P(\boldsymbol{x} \mid c)}{P(\boldsymbol{x})}$
其中 $c$ 是类别标记， $x$ 是样本点（一个包含n维属性的向量）。 $P (c)$ 就是所谓的“先验”概率，这个概率是可以通过数据集统计直接得到的，那么 $\mid \boldsymbol{x})$ 就是所谓的“后验“概率，即我们要在已有数据的信息背景下推断得到的。

与其它机器学习的算法不同，贝叶斯分类算法似乎看不出一个明显的待训练参数，但观察公式也能明白，我们要求出的 $\mid \boldsymbol{x})$ 是由 $P(c)、P(\boldsymbol{x} \mid c)$ 以及 $P(\boldsymbol{x})$ 三者变量所共同决定的，而这三者的现实意义其实就是给定的信息背景（数据集）——多数情况下，我们在不同的信息背景下总能得到不同的 $\mid \boldsymbol{x})、P(c)、P(\boldsymbol{x} \mid c)$ ，进而推出不同的 $\mid \boldsymbol{x})$ 。

有些信息背景对于作出决策的贡献是“好的”，这时 $\mid \boldsymbol{x})$ 体现出来的意义能很真实地反映出作出某项决策的正确性，而在有些信息背景（比如样本过于稀疏）下得出的结果就并不能很好地反映待检测样本所属的真实类别，进而造成误分类。

于是Bayes分类器的训练意义在于寻求“好的”数据集，使得后验概率值能较好地反映出决策的真实性。

何为朴素

从概率学原理来讲，类条件概率 $P(\boldsymbol{x} \mid c)$ ，是所有属性上的联合概率，很难从有限的训练样本直接估计而得。那么为避开这个障碍，朴素贝叶斯分类器采用了“属性条件独立性假设”：对已知类别假设所有属性之间相互独立。

此时类条件概率满足：
$P(\boldsymbol{x} \mid c)=\prod_{i=1}^{d}P(x_i \mid c)$
其中 $d$ 代表样本点的属性个数， $x_i$ 代表 $\boldsymbol{x}$ 的各个属性。

于是开头的贝叶斯公式进一步推：
$P(c\mid \boldsymbol{x}) = \frac{P(c)P(\boldsymbol{x} \mid c)}{P(\boldsymbol{x})}=\frac{P(c)\prod_{i=1}^{d}P(x_i \mid c)}{P(\boldsymbol{x})}$