朴素贝叶斯法（Naive Bayes，NB）（结合例子推公式，通俗易懂）

卡卡西~

已于 2022-05-26 10:59:05 修改

阅读量3.8k

点赞数 3

分类专栏： # 机器学习文章标签：机器学习分类朴素贝叶斯算法

于 2022-02-16 21:08:44 首次发布

本文链接：https://blog.csdn.net/weixin_46838605/article/details/122938541

版权

机器学习专栏收录该内容

9 篇文章 3 订阅

订阅专栏

整合一下学习NB的思路与代码，仅代表个人思想。

算法思想

我们先来看一下这名字的来由。朴素贝叶斯，“贝叶斯”即基于贝叶斯定理，“朴素”即作了特征条件独立假设，这两个是它最突出的特点。朴素贝叶斯是一种概率模型，同时也是参数化模型，经常用于监督学习的分类应用中，例如垃圾邮件分类。对于训练集，首先学习输入输出的联合概率分布模型，然后基于此模型，对给出的输入x，利用贝叶斯定理求出后验概率最大的类别y作为输出。

公式推导

先来看看朴素贝叶斯分类器长什么样子：
$argmax_{c_k}P(Y=c_k)\prod_{j}P(X^{(j)}=x^{(j)}|Y=c_k)$
看不懂很正常，下面结合例子来一步步推出这个公式。

1.问题陈述

设输入空间X为n维向量x的集合，X = {x₁,x₂,x₃…};
每个x由n个特征来描述，x_i = {x_i⁽¹⁾,x_i⁽²⁾,…,x_i⁽ⁿ⁾};每个特征 x^(j) 有 S_j 个取值。
输出空间Y为类标记集合，有k个取值，Y = {c₁,c₂,…,c_k}。
输入训练数据集T = {(x₁,y₁),(x₂,y₂),…,(x_n,y_n)}，我们要做的就是用训练集T学习一个模型，然后用该模型计算后验概率分布 $P(Y=c_k|X=x)$ ，将后验概率最大的类y作为x的类输出。

结合一个例子来讲：

天气x⁽¹⁾	刮风x⁽²⁾	温度x⁽³⁾	是否出去玩c_k
下雨	刮	低	不去
晴	不刮	高	不去
下雨	不刮	中	去
晴	刮	中	去

用朴素贝叶斯分类器求当输入x = (下雨，不刮，低温)时，是否会出去玩。
在该例子中，输入空间X为3维向量x的集合，X = {x₁,x₂,x₃,x₄};
每个x由3个特征来描述，x₁ = {x₁⁽¹⁾下雨，x₁⁽²⁾刮，x₁⁽³⁾低}；x₂ = {x₂⁽¹⁾晴，x₂⁽²⁾不刮，x₂⁽³⁾高}。
特征x⁽¹⁾有S₁=（下雨，晴）2个取值；特征x⁽²⁾有S₂=（刮，不刮）2个取值；特征x⁽³⁾有S₃=（低，中，高）3个取值。
输出空间Y有2个取值，Y = {c₁去，c₂不去}。
输入训练数据集T = {(x₁,y₁),(x₂,y₂),(x₃,y₃),(x₄,y₄)}

2.先验概率分布

先验概率分布是得到类c_k的概率，在这里用极大似然估计法来估计:
$P(Y=c_k)=\frac{\sum_{i=1}^{N}I(y_i=c_k)}{N}，k=1,2,...,K \tag{\color{red}{2.1}}$
其中N为样本总个数，当指示函数 $I(y_i=c_k)$ 括号内的条件成立时， $I(y_i=c_k)=1$ ，否则为0。

得到类c₁=不去玩的概率 $P(Y=c_1)=\frac{1}{2}$
得到类c₂=去玩的概率 $P(Y=c_2)=\frac{1}{2}$
因为在四个样本中有两个不去和两个去，这种靠数个数来计算概率的方法就是极大似然估计。当样本数量足够多时，极大似然估计很好用，样本数量少时就会有失准确性。

3.条件概率分布

假设各个特征之间都是相互独立的(这是一个较强的假设，朴素贝叶斯的“朴素”就是因为这个假设，此假设牺牲了一定的准确率，却让计算变得很简单)，那么条件概率分布为Y=c_k时，X=x的概率:
$\begin{aligned} P(X=x|Y=c_k) &=P(X^{(1)}=x^{(1)},X^{(2)}=x^{(2)},...,X^{(n)}=x^{(n)}|Y=c_k)\\ &=P(X^{(1)}=x^{(1)}|Y=c_k)*P(X^{(2)}=x^{(2)}|Y=c_k)*...*P(X^{(n)}=x^{(n)}|Y=c_k)\\ &=\prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_k) \end{aligned} \tag{\color{red}{3.1}}$
在这里也用极大似然估计法来估计条件概率 $P(X^{(1)}=x^{(1)}|Y=c_k)$ ：
$P(X^{(1)}=x^{(1)}|Y=c_k)=\frac{\sum_{i=1}^{N}I(X_i^{(1)}=x^{(1)},y_i=c_k)}{\sum_{i=1}^{N}I(y_i=c_k)} \tag{\color{red}{3.2}}$
其中N为样本总个数，当指示函数 $I(y_i=c_k)$ 括号内的条件成立时， $I(y_i=c_k)=1$ ，否则为0；当 $I(X_i^{(1)}=x^{(1)},y_i=c_k)$ 括号内的两个条件都成立时为1，否则为0；最后累加起来就相当于在数个数。

当假设各个特征之间相互独立时，相当于假设天气，温度和刮风之间互不影响（其实在正常生活中，天气的好坏会影响温度的，也就是说在现实问题中毫无关系的特征几乎不存在）。
由 $\color{red}{(3.2)}$ 得x⁽¹⁾=下雨时，y=去的概率：
$P(x^{(1)}=下雨|Y=去)=\frac{\sum_{i=1}^{4}I(x^{(1)}=下雨，y_i=去)=1}{\sum_{i=1}^{4}I(y_i=去)=2}$
那么当Y=c₁去时，由 $\color{red}{(3.1)}$ 得x = (下雨，不刮，低温)概率为：
$\begin{aligned} P(x = (下雨，不刮，低温)|Y=去) &=P(x^{(1)}=下雨,x^{(2)}=不刮,x^{(3)}=低温|Y=去)\\ &=P(x^{(1)}=下雨|Y=去)*P(x^{(2)}=不刮|Y=去)*P(x^{(3)}=低温|Y=去)\\ &=\frac{1}{2}*\frac{1}{2}*0\\ &=0 \end{aligned} \tag{\color{red}{3.3}}$
当Y=c₂不去时，x = (下雨，不刮，低温)概率为：
$\begin{aligned} P(x = (下雨，不刮，低温)|Y=不去) &=P(x^{(1)}=下雨,x^{(2)}=不刮,x^{(3)}=低温|Y=不去)\\ &=P(x^{(1)}=下雨|Y=不去)*P(x^{(2)}=不刮|Y=不去)*P(x^{(3)}=低温|Y=不去)\\ &=\frac{1}{2}*\frac{1}{2}*\frac{1}{2}\\ &=\frac{1}{8} \end{aligned} \tag{\color{red}{3.4}}$

4.输入为x的概率

接下来还需要计算输入为x = {x⁽¹⁾,x⁽²⁾,…,x⁽ⁿ⁾} 的概率。
输入为x的概率 $P (X = x)$ 就是x为类c₁的概率，x为类c₂的概率…x为类c_k的概率相加起来：
$\begin{aligned} P(X=x) &=P(Y=c_1)*P(X=x|Y=c_1)+P(Y=c_2)*P(X=x|Y=c_2)+...+P(Y=c_k)*P(X=x|Y=c_k)\\ &=\sum_{k=1}^{K}{P(Y=c_k)*P(X=x|Y=c_k)} \end{aligned}$

计算x=(下雨，不刮，低温)的概率，由步骤2得 $P(Y=c_1)=P(Y=c_2)=\frac{1}{2}$ ；
由式 $\color{red}{(3.3)}$ $\color{red}{(3.4)}$ 得： $P (x = (下雨，不刮，低温) ∣ Y = 去) = 0$ ；
$(下雨，不刮，低温)|Y=不去)=\frac{1}{8}$ ；
故得输入为x = (下雨，不刮，低温)的概率为：
$\begin{aligned} P(x = (下雨，不刮，低温)) &=P(Y=去)*P(x = (下雨，不刮，低温)|Y=去)+P(Y=不去)*P(x = (下雨，不刮，低温)|Y=不去)\\ &=\frac{1}{2}*\frac{1}{8}+\frac{1}{2}*0\\ &=\frac{1}{16} \end{aligned}$

5.用贝叶斯定理求后验概率

贝叶斯定理：
$P(A|B)=\frac{P(B|A)*P(A)}{P(B)}$
在这里，Y=c_k就是A，X=x就是B，那么就得到了计算后验概率的公式：
$P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)*P(Y=c_k)}{P(X=x)} \tag{\color{red}{5.1}}$

我们已经在步骤2，3中计算出了分子，步骤4中计算出了分母，所以将步骤2，3，4中的结果代入式 $\color{red}{(5.1)}$ 得：
输入x = (下雨，不刮，低温)时，输出Y=去的后验概率为：
$\begin{aligned} P(Y=去|x = (下雨，不刮，低温)) &=\frac{P(x = (下雨，不刮，低温)|Y=去)*P(Y=去)}{P(x = (下雨，不刮，低温))}\\ &=\frac{0*\frac{1}{2}}{\frac{1}{16}}\\ &=0 \end{aligned} \tag{\color{red}{5.2}}$
输入x = (下雨，不刮，低温)时，输出Y=不去的后验概率为：
$\begin{aligned} P(Y=不去|x = (下雨，不刮，低温)) &=\frac{P(x = (下雨，不刮，低温)|Y=不去)*P(Y=不去)}{P(x = (下雨，不刮，低温))}\\ &=\frac{\frac{1}{8}*\frac{1}{2}}{\frac{1}{16}}\\ &=1 \end{aligned} \tag{\color{red}{5.3}}$

7.得到答案

朴素贝叶斯分类器将最大的后验概率对应的类c_k作为x的类输出，由式 $\color{red}{(5.1)}$ 得:
$y = argmax_{c_k}P(Y=c_k|X=x)$

我们已经由式 $\color{red}{(5.2)}$ $\color{red}{(5.3)}$ 得到了x对应的每个类的后验概率，只需最后一步比较大小，将最大的找出来，就得到了答案。
$\begin{aligned} y &= argmax_{c_k}P(Y=c_k|X=x)\\ &=argmax_{c_k}\{P(Y=去|x = (下雨，不刮，低温)),P(Y=不去|x = (下雨，不刮，低温))\}\\ &=argmax_{c_k}\{0,1\}\\ &=c_2不去 \end{aligned}$
所以当输入x = (下雨，不刮，低温)时，不会出去玩。

8.简化计算

在计算后验概率的公式 $\color{red}{(5.1)}$ 中可以发现，对于不同类的对应后验概率的计算中，分母都是一样的，而我们最终只比较后验概率的大小，所以只需比较分子的大小就可以了，去掉分母并不影响最后的结果，所以最终的朴素贝叶斯分类器公式为：
$\begin{aligned} y &=argmax_{c_k}P(X=x|Y=c_k)*P(Y=c_k)\\ &=argmax_{c_k}P(Y=c_k)\prod_{j}P(X^{(j)}=x^{(j)}|Y=c_k) \end{aligned}$

9.Laplace平滑

首先在步骤1中我们已经说过，每个x由n个特征来描述，x₁ = {x₁⁽¹⁾,x₁⁽²⁾,…,x₁⁽ⁿ⁾};每个特征x^(j)有S_j个取值。那么所有可能取得的x个数就为 $\prod_{j=1}^{n}S_j$ 。比如在该例中S₁=2；S₂=2；S₃=3。所以所有可能取得的x个数就为2×2×3=12。也就是说，每个输入x的可能性都是 $\frac{1}{12}$ 。

但在步骤4中我们求得输入为x = (下雨，不刮，低温)的概率却为 $\frac{1}{16}$ ，这是为什么呢？

因为在计算过程中，一直使用的是极大似然估计，而极大似然估计可能会出现所要估计的概率值为0的情况，比如在上例中，低温的两个样本都不去玩，导致 $P(x^{(3)}=低温|Y=去)$ 的概率为0，进而导致后续计算 $P (Y = 去 ∣ x = (下雨，不刮，低温))$ 也是0。这时就会影响到后验概率的计算结果，使分类产生偏差，因为或许在更多的样本中会出现低温时也出去玩的情况。

解决这个问题的方法就是采用贝叶斯估计。

具体地，在分子分母上加一项正数 $\lambda>0$ 。一般情况下，常取 $\lambda=1$ ，这时称为拉普拉斯平滑。

采用贝叶斯估计而非极大似然估计（式 $\color{red}{(3.2)}$ ）的条件概率如下：
$P_\lambda(X^{(1)}=x^{(1)}|Y=c_k)=\frac{\sum_{i=1}^{N}I(X_i^{(1)}=x^{(1)},y_i=c_k)+\lambda}{\sum_{i=1}^{N}I(y_i=c_k)+S_j*\lambda}$

取 $\lambda=1$ ，由上式得x⁽¹⁾=下雨时，y=去的概率：
$P_\lambda(x^{(1)}=下雨|Y=去)=\frac{\sum_{i=1}^{4}I(x^{(1)}=下雨，y_i=去)+1}{\sum_{i=1}^{4}I(y_i=去)+2*1}=\frac{1}{2}$
可以看到，当条件概率不为0时，贝叶斯估计的结果与极大似然估计是一致的，但当条件概率恰好为0时，贝叶斯估计的作用就体现了出来，消除了0造成的误差。

用NB分类iris（python实现）

pycharm+python3.7.4，完整代码如下：

# file-settings-python interpreter导包
# 导入科学计算工具
import numpy as np
# 导入鸢尾花数据集
from sklearn.datasets import load_iris
# 导入朴素贝叶斯
from sklearn import naive_bayes

# 加载鸢尾花数据集
iris = load_iris()
# 提取数据
trainX = iris.data
# 提取标签
trainY = iris.target
# 建立高斯分布的朴素贝叶斯模型
clf=naive_bayes.GaussianNB()  #高斯分布，没有参数
# 建立多项式分布的朴素贝叶斯模型
# clf=naive_bayes.MultinomialNB()  #多项式分布

# 训练模型
clf.fit(trainX,trainY)
# 输出准确率
print("准确率:" + str(clf.score(trainX,trainY)))

实验结果：

准确率:0.96

卡卡西~

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
朴素贝叶斯法（Naive Bayes，NB）（结合例子推公式，通俗易懂）

朴素贝叶斯是一种概率模型，同时也是参数化模型，经常用于监督学习的分类应用中，例如垃圾邮件分类。对于训练集，首先学习输入输出的联合概率分布模型，然后基于此模型，对给出的输入x，利用贝叶斯定理求出后验概率最大的输出y。先来看看最终的公式：y=argmaxP(Y=ck)∏jP(X(j)=x(j)∣Y=ck)y = argmaxP(Y=c_k)\prod_{j}P(X^{(j)}=x^{(j)}|Y=c_k)y=argmaxP(Y=ck)j∏...
复制链接

扫一扫