机器学习之朴素贝叶斯法(Naive Bayes)

最新推荐文章于 2024-10-02 12:15:00 发布

机器爱学习时我也爱学习

最新推荐文章于 2024-10-02 12:15:00 发布

阅读量908

点赞数 1

分类专栏：机器学习文章标签：机器学习 python 算法

本文链接：https://blog.csdn.net/zero33325/article/details/108201983

版权

机器学习专栏收录该内容

8 篇文章 4 订阅

订阅专栏

1. 朴素贝叶斯算法简介

朴素贝叶斯算法是有监督的学习算法，解决的是分类问题，如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立（条件特征独立）性假设为前提，就会导致算法精度在某种程度上受影响。朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法，是一种典型的生成方法，即学习到了输入与输出的联合概率分布 $P (X, Y)$ ，这个就是朴素贝叶斯法学习的成果。学习到这个有什么用呢？通过这个联合概率布 $P (X, Y)$ 结合 $P (X)$ , $P (X)$ 对于给定样本X是已知的，就能求出在给定实例 $x$ 下分类为某类 $c_k$ 的概率
$P(Y=c_k|X=x)=\frac{P(X=x, Y=c_k)}{P(X=x)}$
朴素贝叶斯把x对应的最大概率的那一类作为输出。

1.1 什么是贝叶斯定理

首先贝叶斯定理的表达式是 $P(Y|X)=\frac{P(Y)P(X|Y)}{P(X)}$ ，即知道了在Y已知条件下X的概率以及X与Y的概率，就能求出在X已知条件下Y的概率。在这个算法背景下，如果知道了在分类Y已知条件下某实例X的概率，以及Y为某一类的概率和X为某具体实例的概率，就能求出在特征实例X已知条件下分类Y的概率。即：
$P(Y=c_k|X=x)=\frac{P(Y=c_k)P(X=x|Y=c_k)}{P(X=x)}$
而 $P (X = x)$ 无法直接求出，必须是要在已知具体某一类 $Y=c_k$ 的条件下才能求出。所以根据全概率公式，有：
$P(X=x)=\displaystyle\sum_{k=1}^KP(X=x|Y=c_k)P(Y=c_k)$
于是朴素贝叶斯模型的基本形式如下：
$P(Y=c_k|X=x)=\frac{P(Y=c_k)P(X=x|Y=c_k)}{\displaystyle\sum_{k=1}^KP(X=x|Y=c_k)P(Y=c_k)}$
这时我们可以观察一下，要学习到一个朴素贝叶斯模型，需要学习什么呢？本质上朴素贝叶斯是需要学习到输入输出的联合分布，即P(X,Y)，但利用贝叶斯定理以及全概率，其实只需要学习两个先验分布： $P(Y=c_k)$ 以及 $P(X=x|Y=c_k)$ ,而学习的关键之处在于学习到条件特征分布 $P(X=x|Y=c_k)$ 。

1.2 什么特征条件独立？

事件A与B独立的充要条件为 $P (A B) = P (A) * P (B)$ ，或者说 $P(A=A_i, B=B_j)=P(A=A_i)*P(B=B_j)$ 对于A、B的任意取值都成立。即A取什么值与B取什么值没有联系。在朴素贝叶斯法学习下，特征独立指的就是每一个特征取什么值与其余的特征取值无关，所以在学习一个实例 $x$ （包含n个特征,即 $x=(x^{1},x^{2} ,...,x^{n})$ ）的概率时可以这样：
$P(X=x) = P(X^{1} =x^{1}, X^{2} =x^{2},....,X^{n} =x^{n})$
而由于每个特征的取值与其余特征无关，所以上式可以写为:
$P(X=x) = P(X^{1} =x^{1})*P(X^{2} =x^{2})*....*P(X^{n} =x^{n})$

特征条件独立是在给定条件下特征要独立，这个条件就是指定实例 $x$ 所对应的类别 $Y=C_k$ ，也就是说给定实例 $x$ 的类别 $Y=C_k$ 条件下， $x$ 特征独立。即：
$P(X=x|Y=C_k) = P(X^{1} =x^{1}|Y=C_k)*P(X^{2} =x^{2}|Y=C_k)*....*P(X^{n} =x^{n}|Y=C_k)$

假设特征条件独立的意义在于减少参数的数量，极大地简化模型，计算速度快，但是现实中特征或多或少有联系，特征条件独立的假设可能会牺牲一定的分类准确率。

1.3 为什么要假设特征条件独立？

给定训练数据集:
$T=\{(x_1,y_1), (x_2,y_2),..., (x_N,y_N) \}$ ，其中 $x_i\in\mathcal{X}\sube R^n$ 为实例的特征向量， $y_i \in \mathcal{Y}=\{c_1,c_2,...,c_K\}为实例的类别, i=1,2,...,N$

朴素贝叶斯根据训练数据集学习联合概率分布 $P (X, Y)$ 。具体学习以下先验（已知y，叫先验；后知y，叫后验)概率分布：
$P(Y=c_k),k=1,2,...,K$
$P(X=x|Y=c_k)=P(X^1=x^1,X^2=x^2,...,X^n=x^n |Y=c_k )$
从以上两个先验概率分布学习到联合分布 $P(X,Y)=P(X=x, Y=c_k)$

$P(X=x, Y=c_k)=P(X^1=x^1,X^2=x^2,...,X^n=x^n ,Y=c_k )$

可是有个问题， $P(X=x|Y=c_k)$ 的参数非常多，估计起来有点不现实: 若第j个特征 $x^j$ 的取值有 $S_j$ 个，则总共要求的参数就有 $K\displaystyle\prod_{j=1}^nS_j$ 个, 即要学习 $K\displaystyle\prod_{j=1}^nS_j$ 个概率，得到$P(X=x, Y=c_k)的分布。比如有5个特征，每个特征取值5个，总共3分类，看似已经很简单了，可是参数的个数却有 $3*5^5$ =9375个，更别说特征数量以及维度大一点的模型了。

所以对于这个问题，需要做一些假设，即特征条件独立的假设，这个假设是说当在给定类 $c_k$ 的条件下，每个特征的取值与其他特征是独立的，这是一个很强的假设，但可以极大地简化模型，朴素贝叶斯的naive正是因此而来。在这个假设条件下
$\begin{aligned} P(X=x|Y=c_k) &=P(X^1=x^1,X^2=x^2,...,X^n=x^n |Y=c_k )\\ &=\displaystyle\prod_{j=1}^nP(X^j=x^j|Y=c_k)\\ \end{aligned}$
在这时，上面那个条件概率分布 $P(X=x|Y=c_k)$ 参数个数为 $K\displaystyle\sum_{j=1}^nS_j=3*(5*5)=75$ 个，极大的减少了参数的数量。但是所带来的缺点就是会牺牲一定的分类准确率。

1.4 朴素贝叶斯模型与学习策略

上面简化模型之后，朴素贝叶斯法根据输入的实例 $x$ ,计算出每一类的概率，并将概率最大的那一类最为 $x$ 的类输出。这就是模型的评价准则，给定 $x$ 可能输出的类有K个，哪一个类最好呢？就是当后验概率 $P(Y=c_k|X=x)$ 最大的那个类最好。

$\begin{aligned} P(Y=c_k|X=x) &=\frac{P(Y=c_k,X=x)}{P(X=x)}\\ &=\frac{P(X=x|Y=c_k)P(Y=c_k)}{P(X=x)}\\ &=\frac{\displaystyle\prod_{j=1}^nP(X^j=x^j|Y=c_k)P(Y=c_k)}{\displaystyle\sum_{k=1}^KP(X=x|Y=c_k)P(Y=c_k)}\\ \end{aligned}$

模型的输出y为：
$y=f(x)={\underset {c_k}{\operatorname {arg\,max} }}\frac{\displaystyle\prod_{j=1}^nP(X^j=x^j|Y=c_k)P(Y=c_k)}{\displaystyle\sum_{k=1}^KP(X=x|Y=c_k)P(Y=c_k)}$
对于每一类 $c_k$ 来说，分母都一样，所以在求极大值时可以省略，故而最终输出为：
$y=f(x)={\underset {c_k}{\operatorname {arg\,max} }}\displaystyle\prod_{j=1}^nP(X^j=x^j|Y=c_k)P(Y=c_k)$

所以观察这个公式，给定数据集，这个方法所要求的就是Y取每一类的概率，然后在每一类确定的情况下每个特征取到某个具体值的条件概率。

所以朴素贝叶斯模型能计算出在给定实例 $x$ 下，计算出每一类的概率。然后依据后验概率最大化（也是期望风险最小化，即学习策略）将实例强行归为后验概率最大的那个类别并输出。

2 参数估计

知道了朴素贝叶斯法的基本方法，具体是怎么学习的，输出的类是是后验概率 $P(Y=c_k|X=x)$ 最大的类，那么怎么来求出这个概率 $P(Y=c_k|X=x)$ 呢？可以看出这个概率有两种参数：

类概率: $P(Y=c_k)，k=1,2,...,K$
给定类下 $第 j 个特征取第 l 个值的概率$ : $P(X^j=x^j_l|Y=c_k)$

只要模型求出了这类参数，就可以求出给定 $x$ 下输出每一类的概率，并把概率最大的类最为输出值。

2.1 极大似然估计

现用极大似然估计法求这两类参数：
首先估计 $P(Y=c_k)$ ，以k类为代表，k=1,2,…,K
令： $P(Y=c_k)=P_k ,P(Y\ne c_k)=1-P_k$
则似然函数L为：
$L(P_k)=P_k^{\small\displaystyle\sum_{i=1}^NI(y_i=c_k) }(1-P_k)^{\small\displaystyle\sum_{i=1}^NI(y_i\ne c_k) }$
$L(P_k)=\displaystyle\sum_{i=1}^NI(y_i=c_k)*lnP_k +\displaystyle\sum_{i=1}^NI(y_i\ne c_k)*ln(1-P_k)$
$\frac{\partial ln L(P_k)}{\partial P_k} =\frac{\displaystyle\sum_{i=1}^NI(y_i=c_k)}{P_k}-\frac{\displaystyle\sum_{i=1}^NI(y_i\ne c_k)}{1-P_k}=0$
解得 $P_k=\frac{\displaystyle\sum_{i=1}^NI(y_i=c_k)}{N}$ ,k=1,2,…,K

下面估计 $P(X^j=x^j_l|Y=c_k)$ , $X^j$ 可能取值为 $\{x^j_1,x^j_2,...,x^j_{S_j} \}$

令 $P(X^j=x^j_l|Y=c_k)=P_{kjl}$ , $P(X^j\ne x^j_l|Y=c_k)=1-P_{kjl}$
则似然函数为：
$L(P_{kjl})=P_{kjl}^{\small\displaystyle\sum_{i=1}^NI(y_i=c_k,X^j=x^j_l) }(1-P_{kjl})^{\small\displaystyle\sum_{i=1}^NI(y_i= c_k,X^j\ne x^j_l) }$
$L(P_{kjl})={\small\displaystyle\sum_{i=1}^NI(y_i=c_k,X^j=x^j_l) }*lnP_{kjl} +{\small\displaystyle\sum_{i=1}^NI(y_i= c_k,X^j\ne x^j_l)*ln(1-P_{kjl}) }$
$\frac{\partial ln L(P_{kjl})}{\partial P_{kjl}} =\frac{\small\displaystyle\sum_{i=1}^NI(y_i=c_k,X^j=x^j_l) }{P_{kjl}}-\frac{\small\displaystyle\sum_{i=1}^NI(y_i= c_k,X^j\ne x^j_l)*ln(1-P_{kjl})}{1-P_{kjl}}=0$
解得 $P_{kjl}=\frac{\small\displaystyle\sum_{i=1}^NI(y_i=c_k,X^j=x^j_l) }{\displaystyle\sum_{i=1}^NI(y_i= c_k)}$

通过以上两个极大似然估计值可以看到， $P(Y=c_k)$ 就是所有样本中 $c_k$ 出现的频率，而 $P(X^j=x^j_l|Y=c_k)$ 就是在 $c_k$ 类样本当中， $j$ 特征取到第 $l$ 个值的频率。

2.2贝叶斯估计

极大似然估计可能会出现一个问题，即新输入的实例 $x$ 的某个特征取的值，在某个类下未出现过。如 $\displaystyle\sum_{i=1}^NI(y_i=c_k,X^j=x^j_l)=0$ ，就说在类 $c_k$ 下，第 $j$ 个特征从未取到过第 $l$ 个值，这时候 $P(X^j=x^j_l|Y=c_k)$ =0,所以 $P(Y=c_k|X=x)=0$ ,显然这个问题会影响后验概率的结果，因为训练集未出现这个情况并不代表这个 $x$ 特征下完全不可能是 $c_k$ 类。解决这个问题的一种方法是采用贝叶斯估计。

条件概率的贝叶斯估计是：
$P_\lambda(X^j=x^j_l|Y=c_k)=\frac{\small\displaystyle\sum_{i=1}^NI(y_i=c_k,X^j=x^j_l) +\lambda}{\displaystyle\sum_{i=1}^NI(y_i= c_k)+S_j\lambda}$
其中 $S_j$ 是特征j的取值总个数， $\lambda>= 0$ 。

当 $\lambda$ 取0时，结果和极大似然估计一样，当 $\lambda=1$ 时，称为拉普拉斯平滑。

模型的介绍到这就结束了，下面进行实例演练。

3.实例操作

就用李航博士《统计机器学习》第二版树上的例题来做。

import numpy as np
import pandas as pd

创建数据

X_1=np.array([1,1,1,1,1,2,2,2,2,2,3,3,3,3,3])
X_2=np.array(['s','m','m','s','s','s','m','m','l','l','l','m','m','l','l'])
y = np.array([-1,-1,1,1,-1,-1,-1,1,1,1,1,1,1,1,-1])
data = pd.DataFrame(columns=['X_1','X_2','y'])
data['X_1'] = X_1
data['X_2'] = X_2
data['y'] = y

分离实例与标签

X = data.iloc[:, :-1]
y = data.iloc[:, -1]

构造朴素贝叶斯模型

def NB(X,y,x):
    """
    X:训练集特征矩阵
    y:训练集标签数组
    x:需要预测的实例
    """
    p_y={}  # 用来计算每个类的概率 P(Y=ck)
    p_Y_x = {}  # 用来保存所有的条件概率
    for i in np.unique(y):
        p_y[i] = sum(y==i)/len(y)
        p_Y_x[i]={} 
        for n in X.columns:
            p_Y_x[i][n] = {}
            for x1 in np.unique(X[n]):
                p_Y_x[i][n][x1] = sum(data[y==i][n]==x1)/sum(y==i)
    p_x = {}  # 用来储存在x条件下输出每一类的概率
    for k in np.unique(y):
        p_x[k] = p_y[k]
        for m,p in zip(X.columns,x):
            p_x[k] = p_x[k] * p_Y_x[k][m][p]
     print(p_x)
    final_class = max(p_x, key=p_x.get)  # 取概率最大的类输出
    return final_class

NB(X,y,x)   # 输出-1

可以看到，输出-1类的概率为1/15，输出+1类的概率为1/45，所以最终输出了-1类。该手写模型适用于任意数量的类，任意数量的特征，每个特征取值也可以是任意数量的。对参数采用极大似然估计，该模型没解决要估计的某个条件概率为0的情况，下面加入 $\lambda$ 。

def NB_lambad(X,y,x,_lambda):
    """
    X:训练集特征矩阵
    y:训练集标签数组
    x:需要预测的实例
    """
    p_y={}  # 用来计算每个类的概率 P(Y=ck)
    p_Y_x = {}  # 用来保存所有的条件概率
    for i in np.unique(y):
        p_y[i] = sum(y==i)/len(y)
        p_Y_x[i]={} 
        for n in X.columns:
            p_Y_x[i][n] = {}
            for x1 in np.unique(X[n]):
                # 贝叶斯估计只需修改这步
                p_Y_x[i][n][x1] = ( sum(data[y==i][n]==x1)+_lambda) / (sum(y==i)+len(np.unique(X[n]))*_lambda)
    p_x = {}  # 用来储存在x条件下输出每一类的概率
    for k in np.unique(y):
        p_x[k] = p_y[k]
        for m,p in zip(X.columns,x):
            p_x[k] = p_x[k] * p_Y_x[k][m][p]
    print(p_x)
    final_class = max(p_x, key=p_x.get)  # 取概率最大的类输出
    return final_class