朴素贝叶斯算法（初学者实例入门）

老饼讲解机器学习

已于 2024-06-08 13:48:15 修改

阅读量4.6k

点赞数 6

分类专栏： # 机器学习入门篇文章标签：分类算法机器学习

于 2022-05-11 10:28:04 首次发布

本文链接：https://blog.csdn.net/ywj_1991/article/details/124704375

版权

机器学习入门篇专栏收录该内容

10 篇文章 7 订阅

订阅专栏

《老饼讲解机器学习》--一个优质的机器学习网站https://www.bbbdata.com/text/17

(一) 贝叶斯原理、贝叶斯分类器与朴素贝叶斯的区别

(二)先验概率、后验概率、信息证据

本文讲解朴素贝叶斯模型的原理，使用例子，以及线上使用。

一、算法介绍

朴素贝叶斯是基于贝叶斯后验概率建立的模型，它用于解决分类问题。

它的主要思想是，通过历史数据，对每个类别建立经验概率公式，然后当新样本进来时，用各个类别的概率经验公式分别进行预测，最终，属于哪个类别的概率最大，就认为是哪个类别。

注：为了简化，我们不一定用概率公式p(x)，也可以使用它的简化版g(x)替代它。

二、贝叶斯概率公式与判别函数

模型的关键是如何用历史数据构建类别的概率公式，贝叶斯原理恰好可以解决这个问题。

(一) 贝叶斯原理

贝叶斯原理为，在已知发生B条件下,发生A的概率为:

备注：贝叶斯原理可以理解为： P(B)⋅P(A∣B) = P(B∣A)⋅P(A)，即：发生B,且发生A = 发生A且发生B

(二) 属于各类别的概率计算公式

根据贝叶斯原理可以得到，在已知表现特征，属于类别 i 的概率则为：

如果各特征间是独立的，那特征的概率可以拆成累积形式，上式可以写成：

(三) 判别函数

因为每个分母一样，所以我们最终每个类别的决策器只取上式的分子即可，如下

此时，G代表的就不再是概率，而是判别值，称Gi为第i类别的判别函数。

(四) 概率的实际估算

上式各个P的计算用历史样本估算，如下

P(表现为特征Xk|已知属于类别 i) = 类别 i 中特征k为 $x_k$ 的样本个数/ 类别 i 样本个数
P(属于类别 i ) = 类 i 在总本样中的占比
P(表现为特征 $X_k$ ) = 特征k等于 $x_k$ 的占比

备注：
(1) 连续变量需要离散化成组别
(2) 如果我们使用G判别函数，则不需要计算P(特征Xk)

三.例子讲解

历史身高、体重与性别的历史数据：
现在来了个身高分组为3，体重分组为2的，需要判断该样本的类别。

模型判别流程如下：
1、估算各类别下特征表现的概率

P(身高=3|已知属于男) = 男样本中身高分组为3的个数 / 男样本个数 = 1/3
P(体重=2|已知属于男) = 男样本中体重分组为2的个数 / 男样本个数 = 1/3
P(身高=3|已知属于女) = 女样本中身高分组为3的个数 / 女样本个数 = 1/4
P(体重=2|已知属于女) = 女样本中体重分组为2的个数 / 女样本个数 = 2/4

2、估算属于各类别的先验概率(即类别占比)
P(属于男) =3/7
P(属于女) = 4/7

3、估算特征表现概率（即特征占比）
P(身高=3) = 身高为分组3的占比 =2/7
P(体重=2) = 体重为分组2的占比 = 3/7

4、计算样本属于各类别的概率值（或判别值)
P(属于男样本 |已知身高=3，体重=2）
= P(身高=3|已知属于男)*P(体重=2|已知属于男) *P(属于男) /[ P(身高=3)*P(体重=2) ]

$= \dfrac{ \frac{1}{3}*\frac{1}{3}*\frac{3}{7}}{ \frac{2}{7}*\frac{3}{7}}$

P(属于女样本 |已知身高=3，体重=2）
= P(身高=3|已知属于女)*P(体重=2|已知属于女) *P(属于女) /[ P(身高=3)*P(体重=2) ]

$= \dfrac{ \frac{1}{4}*\frac{2}{4}*\frac{4}{7}}{ \frac{2}{7}*\frac{3}{7}} = \frac{7}{12}$

5、结论
是男的概率为7/18,是女的概率为7/12,由此，判断样本属于女。

备注：特征占比在实际计算中不需计算，因为最后是比较大小，分母不必计算。

四、模型存储

实际应用中，我们不会实时计算各个P，而是预存储好P，使用时直接调用。

这里以使用判别函数G举例，则需要存储以下两个数据:

(1) 历史样本中，属于该类别的概率
(2) 历史样本中，特征表现概率表

具体例子，以k个类别，X含两个特征x1,x2为例，则需要存储：

(1)类别概率表

(2)各个特征概率表
共两个特征的概率表：

PASS:也可以存成以变量名-类别名-组别为主键的竖表，然后通过键值查询各个特征对应的P值，如下：

当进来一个特征[x1,x2]时，按G公式计算各个类别的判别值，在计算Gi时，按每个特征的组别，去表中查询属于i类的概率,最终代入Gi即可。

五、概念补充

(一) 贝叶斯原理、贝叶斯分类器与朴素贝叶斯的区别

1、贝叶斯原理：指的是贝叶斯的后验公式。
2、贝叶斯分类器：指用贝叶斯后验公式建立的分类器。
3、朴素贝叶斯：在贝叶斯分类器的基础上，添加了“变量间独立”的假设条件。

(二)先验概率、后验概率、信息证据

为方便查看，再次贴上贝叶斯公式：

(1) 先验概率

先验概率是指，事情未发生，利用以往经验，对未来预测。例如，P(属于类别i) 就是先验概率，利用之前的类别信息，估算新样本所属类别的概率。

(2) 后验概率

后验概率是指，事情已经发生，执果寻因，用结果倒推原因的概率。例如，病人已病，在咳嗽，求病人咳嗽是由风寒引起的概率。这就是后验概率。 P(属于类别i|已知表现为x特征)则是后验概率。

(3)信息证据

很多信息我们往往不能直接观察到(例如本例中的类别信息)，但我们可以观察到其它一些关联信息（本例中的特征表现），如果不利用贝叶斯原理，我们只能简单的通过以往类别的概率，进行估算。

但是，使用贝叶斯原理后，我们可以根据关联信息（也称为证据），去补充、修正原本简单的类别先验概率。使新得到的概率 P(属于类别i|已知表现为X)更加准确，因为它比原先的简单先验概率添加了更多的信息证据（表现为X特征）。

在这里对这些概念的辨识，是因为后续还会需要用到，提前给个印象。

相关文章

《入门篇-环境搭建:anaconda安装》

《入门篇-模型：逻辑回归》

《入门篇-模型：决策树-CART》

老饼讲解机器学习

关注

6
点赞
踩
62

收藏

觉得还不错? 一键收藏
2
评论
朴素贝叶斯算法（初学者实例入门）

《老饼讲解机器学习》一、算法介绍朴素贝叶斯是基于贝叶斯后验概率建立的模型。它用于解决分类问题。它的主要思想是，通过历史数据，对每个类别建立经验概率公式，然后当新样本进来时，用各个类别的概率经验公式分别进行预测，最终，属于哪个类别的概率最大，就认为是哪个类别。注：为了简化，我们不一定用概率公式p(x)，也可以使用它的简化版g(x)替代它。二、贝叶斯概率公式与判别函数模型的关键是如何用历史数据构建类别的概率公式，贝叶斯原理恰好可以解决这个问题。(一) 贝叶斯原理...
复制链接

扫一扫

专栏目录