《统计学习方法》第四章朴素贝叶斯学习笔记

最新推荐文章于 2021-04-11 18:42:19 发布

常山赵匡胤

最新推荐文章于 2021-04-11 18:42:19 发布

阅读量887

点赞数

分类专栏：统计学习方法机器学习文章标签：统计学习方法机器学习朴素贝叶斯分类算法

本文链接：https://blog.csdn.net/wjlucc/article/details/69230321

版权

机器学习同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

统计学习方法

8 篇文章 0 订阅

订阅专栏

朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布 $P(X,Y)$ ，然后求得后验概率分布 $P(Y|X)$ 。具体是利用训练数据学习 $P(X|Y)$ 和 $P(Y)$ 的估计，得到联合概率分布： $P(X,Y)=P(Y)P(X|Y)$ 。
朴素贝叶斯法的基本假设是条件独立性：

P (X = x | Y = c k) = = P (X (1) = x (1), \dots, X (n) = x (n) | Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k)

$\begin{eqnarray*}P(X=x|Y=c_k)&=&P(X^{(1)}=x^{(1)},\cdots,X^{(n)}=x^{(n)}|Y=c_k)\\ & = & \prod_{j=1}^n{P(X^{(j)}=x^{(j)}|Y=c_k)} \end{eqnarray*}$
这是一个较强的假设。由于这一假设，模型包含该的条件概率的数量大为减少，朴素贝叶斯法的学习与预测大为简化。因而朴素贝叶斯法高效，且易于实现。其缺点是分类的性能不一定很高。
朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行分类预测。

P (Y | X) = P ( X , Y ) P ( X ) = P ( Y ) P ( X | Y ) \sum Y P ( Y ) P ( X | Y )

$P(Y|X)=\frac{P(X,Y)}{P(X)}=\frac{P(Y)P(X|Y)}{\sum\limits_YP(Y)P(X|Y)}$

一、极大似然估计

估计两部分参数，先验概率 $P(Y=c_k)$ 和条件概率 $P(X^{(j)}=x^{(j)}|Y=c_k)$ 。
1. 先验概率 $P(Y=c_k)$ 的极大似然估计是：

P (Y = c k) = \sum i = 1 N I ( y i = c k ) N, k = 1, 2, \dots, K

$P(Y=c_k)=\frac{\sum\limits_{i=1}^NI(y_i=c_k)}{N},k=1,2,\cdots,K$
2. 设第j个特征

x(j) $x^{(j)}$ 可能取值的集合为

{aj1,aj2,⋯,ajSj} $\{a_{j1},a_{j2},\cdots,a_{jS_j}\}$ ， 条件概率

P(X(j)=ajl|Y=ck) $P(X^{(j)}=a_{jl}|Y=c_k)$ 的意义是在某一类

Y=ck $Y=c_k$ 的条件下，x的第j个分量特征取值

ajl $a_{jl}$ 的概率。

P (X (j) = a j l | Y = c k) = \sum i = 1 N I ( x ( j ) i = a j l , y i = c k ) \sum i = 1 N I ( y i = c k )

$P(X^{(j)}=a_{jl}|Y=c_k)=\frac{{\sum\limits_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}}{\sum\limits_{i=1}^NI(y_i=c_k)}$

j = 1, 2, \dots, n; l = 1, 2, \dots, S j; k = 1, 2, \dots, K

$j=1,2,\cdots,n;l=1,2,\cdots,S_j;k=1,2,\cdots,K$
上式中，

xji $x_i^j$ 是第i个样本的第j个特征；

ajl $a_{jl}$ 是第j个特征可能取的第l个值；

I $I$ 为指示函数。总的需要估计的参数数量为：

k∑nj=1Sj $k\sum_{j=1}^nS_j$ 。

二、学习与分类算法

（1）计算先验概率和条件概率

P (Y = c k) = \sum i = 1 N I ( y i = c k ) N, k = 1, 2, \dots, K

$P(Y=c_k)=\frac{\sum\limits_{i=1}^NI(y_i=c_k)}{N},k=1,2,\cdots,K$

P (X (j) = a j l | Y = c k) = \sum i = 1 N I ( x ( j ) i = a j l , y i = c k ) \sum i = 1 N I ( y i = c k )

$P(X^{(j)}=a_{jl}|Y=c_k)=\frac{{\sum\limits_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}}{\sum\limits_{i=1}^NI(y_i=c_k)}$

j = 1, 2, \dots, n; l = 1, 2, \dots, S j; k = 1, 2, \dots, K

$j=1,2,\cdots,n;l=1,2,\cdots,S_j;k=1,2,\cdots,K$
（2）对于给定的实例

x=(x(1),x(2),⋯,x(n))T $x=(x^{(1)},x^{(2)},\cdots,x^{(n)})^T$ ，计算

P (Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k), k = 1, 2, \dots, K

$P(Y=c_k)\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k),k=1,2,\cdots,K$
（3）确定实例x所属的类

y = a r g m a x c k P (Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k)

$y=\mathop{argmax}_{c_k}P(Y=c_k)\prod_{j=1}^nP(X^{(j)}=x^{(j)}|Y=c_k)$

书中的一个例子：

三、贝叶斯估计

极大似然估计时参数会产生0频问题，会影响到后验概率的计算结果，使分类产生偏差。采用贝叶斯估计可以解决这个问题。
先验概率的贝叶斯估计是：

P λ (Y = c k) = \sum i = 1 N I ( y i = c k ) + λ N + K λ

$P_\lambda(Y=c_k)=\frac{ \displaystyle{\sum_{i=1}^NI(y_i=c_k)}+\lambda}{N+K\lambda}$
上式中，

K $K$ 表示类别数目。
条件概率的贝叶斯估计是：

P λ (X (j) = a j l | Y = c k) = \sum i = 1 N I ( x ( j ) i = a j l , y i = c k ) + λ \sum i = 1 N I ( y i = c k ) + S j λ

$P_\lambda(X^{(j)}=a_{jl}|Y=c_k)=\frac{{ \sum\limits_{i=1}^NI(x_i^{(j)}=a_{jl},y_i=c_k)}+\lambda}{ \sum\limits_{i=1}^NI(y_i=c_k)+S_j\lambda}$
上式中，

Sj $S_j$ 表示第

j $j$ 个特征的取值个数。
以上两个公式中，当

λ=0 $\lambda=0$ 时就是极大似然估计。常取

λ=1 $\lambda=1$ ，这时称为拉普拉斯平滑。

例子：

常山赵匡胤

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》第四章朴素贝叶斯学习笔记

朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布P(X,Y)P(X,Y)，然后求得后验概率分布P(Y|X)P(Y|X)。具体是利用训练数据学习P(X|Y)P(X|Y)和P(Y)P(Y)的估计，得到联合概率分布：P(X,Y)=P(Y)P(X|Y)P(X,Y)=P(Y)P(X|Y)。朴素贝叶斯法的基本假设是条件独立性： P(X=x|Y=ck)==P(X(1)=x(1),⋯,X(
复制链接

扫一扫