【统计学习方法】第4章朴素贝叶斯法

最新推荐文章于 2021-08-22 16:49:15 发布

gkm0120

最新推荐文章于 2021-08-22 16:49:15 发布

阅读量200

点赞数

分类专栏：统计学习方法文章标签：朴素贝叶斯算法

本文链接：https://blog.csdn.net/weixin_45839039/article/details/113200969

版权

统计学习方法专栏收录该内容

11 篇文章 2 订阅

订阅专栏

朴素贝叶斯（naive Bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入 $x$ ，利用贝叶斯定理求出后验概率最大的输出 $y$ 。朴素贝叶斯法实现简单，学习与预测的效率都很高，是一种常用的方法。

1、朴素贝叶斯法

训练数据集 $\begin{aligned} & T = \left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\} \end{aligned}$

由 $\left( X, Y \right)$ 独立同分布产生。其中， $x_{i} \in \mathcal{X} \subseteq R^{n}, y_{i} \in \mathcal{Y} = \left\{ c_{1}, c_{2}, \cdots, c_{K} \right\}, i = 1, 2, \cdots, N$ ， $x_{i}$ 为第 $i$ 个特征向量（实例）， $y_{i}$ 为 $x_{i}$ 的类标记， $X$ 是定义在输入空间 $\mathcal{X}$ 上的随机向量， $Y$ 是定义在输出空间 $\mathcal{Y}$ 上的随机变量。 $\left( X, Y \right)$ 是 $X$ 和 $Y$ 的联合概率分布。

算法推导

条件独立性假设

$\begin{aligned} & P \left( X = x | Y = c_{k} \right) = P \left( X^{\left( 1 \right)} = x^{\left( 1 \right)} , \cdots, X^{\left( n \right)} = x^{\left( n \right)} | Y = c_{k}\right) \\ & \quad\quad\quad\quad\quad\quad = \prod_{j=1}^{n} P \left( X^{\left( j \right)} = x^{\left( j \right)} | Y = c_{k} \right) \end{aligned}$

即，用于分类的特征在类确定的条件下都是条件独立的。

由 $\begin{aligned} & P \left( X = x, Y = c_{k} \right) = P \left(X = x | Y = c_{k} \right) P \left( Y = c_{k} \right) \\ & P \left( X = x, Y = c_{k} \right) = P \left( Y = c_{k}| X = x \right) P \left( X = x \right)\end{aligned}$

得

$\begin{aligned} & P \left(X = x | Y = c_{k} \right) P \left( Y = c_{k} \right) = P \left( Y = c_{k}| X = x \right) P \left( X = x \right) \\ & P \left( Y = c_{k}| X = x \right) = \dfrac{P \left(X = x | Y = c_{k} \right) P \left( Y = c_{k} \right)}{P \left( X = x \right)} \\ & \quad\quad\quad\quad\quad\quad = \dfrac{P \left(X = x | Y = c_{k} \right) P \left( Y = c_{k} \right)}{\sum_{Y} P \left( X = x, Y = c_{k} \right)} \\ & \quad\quad\quad\quad\quad\quad = \dfrac{P \left(X = x | Y = c_{k} \right) P \left( Y = c_{k} \right)}{\sum_{Y} P \left(X = x | Y = c_{k} \right) P \left( Y = c_{k} \right)} \\ & \quad\quad\quad\quad\quad\quad = \dfrac{ P \left( Y = c_{k} \right)\prod_{j=1}^{n} P \left( X^{\left( j \right)} = x^{\left( j \right)} | Y = c_{k} \right)}{\sum_{Y} P \left( Y = c_{k} \right)\prod_{j=1}^{n} P \left( X^{\left( j \right)} = x^{\left( j \right)} | Y = c_{k} \right)}\end{aligned}$

朴素贝叶斯分类器可表示为

$\begin{aligned} & y = f \left( x \right) = \arg \max_{c_{k}} \dfrac{ P \left( Y = c_{k} \right)\prod_{j=1}^{n} P \left( X^{\left( j \right)} = x^{\left( j \right)} | Y = c_{k} \right)}{\sum_{Y} P \left( Y = c_{k} \right)\prod_{j=1}^{n} P \left( X^{\left( j \right)} = x^{\left( j \right)} | Y = c_{k} \right)} \\ & \quad\quad\quad = \arg \max_{c_{k}} P \left( Y = c_{k} \right)\prod_{j=1}^{n} P \left( X^{\left( j \right)} = x^{\left( j \right)} | Y = c_{k} \right)\end{aligned}$

2、参数估计

极大似然估计

朴素贝叶斯模型参数的极大似然估计

先验概率 $\left( Y = c_{k} \right)$ 的极大似然估计
$\begin{aligned} P \left( Y = c_{k} \right) = \dfrac{\sum_{i=1}^{N} I \left( y_{i} = c_{k} \right)}{N} \quad k = 1, 2, \cdots, K\end{aligned}$

设第 $j$ 个特征 $x^{\left( j \right)}$ 可能取值的集合为 $\left\{ a_{j1}, a_{j2}, \cdots, a_{j S_{j}} \right\}$ ，条件概率 $\left( X^{\left( j \right)} = a_{jl} | Y = c_{k} \right)$ 的极大似然估计 $\begin{aligned} & P \left( X^{\left( j \right)} = a_{jl} | Y = c_{k} \right) ＝ \dfrac{\sum_{i=1}^{N} I \left(x_{i}^{\left( j \right)}=a_{jl}, y_{i} = c_{k} \right)}{\sum_{i=1}^{N} I \left( y_{i} = c_{k} \right)} \\ & j = 1, 2, \cdots, n;\quad l = 1, 2, \cdots, S_{j};\quad k = 1, 2, \cdots, K\end{aligned}$

其中， $x_{i}^{\left( j \right)}$ 是第 $i$ 个样本的第 $j$ 个特征； $a_{jl}$ 是第 $j$ 个特征可能取的第 $l$ 个值； $I$ 是指示函数。

贝叶斯估计

对于 $x$ 的某个特征的取值没有在先验中出现的情况，如果用极大似然估计，这种情况的可能性就是0。但是出现这种情况的原因通常是因为数据集不能全覆盖样本空间，出现未知的情况处理的策略就是做平滑。

朴素贝叶斯算法：
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。

输入：线性可分训练数据集 $\left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\}$ ，其中 $x_{i}＝ \left( x_{i}^{\left(1\right)},x_{i}^{\left(2\right)},\cdots, x_{i}^{\left(n\right)} \right)^{T}$ ， $x_{i}^{\left( j \right)}$ 是第 $i$ 个样本的第 $j$ 个特征， $x_{i}^{\left( j \right)} \in \left\{ a_{j1}, a_{j2}, \cdots, a_{j S_{j}} \right\}$ ， $a_{jl}$ 是第 $j$ 个特征可能取的第 $l$ 个值， $\cdots, n; l = 1, 2, \cdots, S_{j},y_{i} \in \left\{ c_{1}, c_{2}, \cdots, c_{K} \right\}$ ；实例 $x$ ；
输出：实例 $x$ 的分类

计算先验概率及条件概率
$\begin{aligned} & P \left( Y = c_{k} \right) = \dfrac{\sum_{i=1}^{N} I \left( y_{i} = c_{k} \right)}{N} \quad k = 1, 2, \cdots, K \\ & P \left( X^{\left( j \right)} = a_{jl} | Y = c_{k} \right) ＝ \dfrac{\sum_{i=1}^{N} I \left(x_{i}^{\left( j \right)}=a_{jl}, y_{i} = c_{k} \right)}{\sum_{i=1}^{N} I \left( y_{i} = c_{k} \right)} \\ & j = 1, 2, \cdots, n;\quad l = 1, 2, \cdots, S_{j};\quad k = 1, 2, \cdots, K\end{aligned}$
对于给定的实例 $x=\left( x^{\left( 1 \right)}, x^{\left( 2 \right)}, \cdots, x^{\left( n \right)}\right)^{T}$ ，计算

$\begin{aligned} & P \left( Y = c_{k} \right)\prod_{j=1}^{n} P \left( X^{\left( j \right)} = x^{\left( j \right)} | Y = c_{k} \right) \quad k=1,2,\cdots,K\end{aligned}$

确定实例 $x$ 的类别
$\begin{aligned} & y = f \left( x \right) = \arg \max_{c_{k}} P \left( Y = c_{k} \right)\prod_{j=1}^{n} P \left( X^{\left( j \right)} = x^{\left( j \right)} | Y = c_{k} \right) \end{aligned}$

朴素贝叶斯模型参数的贝叶斯估计

条件概率的贝叶斯估计 $\begin{aligned} & P_{\lambda} \left( X^{\left( j \right)} = a_{jl} | Y = c_{k} \right) ＝ \dfrac{\sum_{i=1}^{N} I \left(x_{i}^{\left( j \right)}=a_{jl}, y_{i} = c_{k} \right) + \lambda}{\sum_{i=1}^{N} I \left( y_{i} = c_{k} \right) + S_{j} \lambda} \end{aligned}$

式中 $\lambda \geq 0$ 。当 $\lambda ＝ 0$ 时，是极大似然估计；当 $\lambda ＝ 1$ 时，称为拉普拉斯平滑。
先验概率的贝叶斯估计 $\begin{aligned} & P \left( Y = c_{k} \right) = \dfrac{\sum_{i=1}^{N} I \left( y_{i} = c_{k} \right) + \lambda}{N + K \lambda}\end{aligned}$

3、概要总结

1．朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布 $P (X, Y)$ ，然后求得后验概率分布 $P (Y ∣ X)$ 。具体来说，利用训练数据学习 $P (X ∣ Y)$ 和 $P (Y)$ 的估计，得到联合概率分布：

$P (X, Y) ＝ P (Y) P (X ∣ Y)$

概率估计方法可以是极大似然估计或贝叶斯估计。

2．朴素贝叶斯法的基本假设是条件独立性，

$\begin{aligned} P(X&=x | Y=c_{k} )=P\left(X^{(1)}=x^{(1)}, \cdots, X^{(n)}=x^{(n)} | Y=c_{k}\right) \\ &=\prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right) \end{aligned}$

这是一个较强的假设。由于这一假设，模型包含的条件概率的数量大为减少，朴素贝叶斯法的学习与预测大为简化。因而朴素贝叶斯法高效，且易于实现。其缺点是分类的性能不一定很高。

3．朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行分类预测。

$X)=\frac{P(X, Y)}{P(X)}=\frac{P(Y) P(X | Y)}{\sum_{Y} P(Y) P(X | Y)}$
将输入 $x$ 分到后验概率最大的类 $y$ 。

$y=\arg \max _{c_{k}} P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X_{j}=x^{(j)} | Y=c_{k}\right)$

后验概率最大等价于0-1损失函数时的期望风险最小化。

gkm0120

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【统计学习方法】第4章朴素贝叶斯法

朴素贝叶斯（naive Bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法.对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y.
复制链接

扫一扫