第四章朴素贝叶斯法

最新推荐文章于 2024-04-23 14:00:43 发布

bineleanor

最新推荐文章于 2024-04-23 14:00:43 发布

阅读量197

点赞数

分类专栏：机器学习统计学习方法

本文链接：https://blog.csdn.net/z2536083458/article/details/85799123

版权

机器学习同时被 2 个专栏收录

9 篇文章 4 订阅

订阅专栏

统计学习方法

8 篇文章 1 订阅

订阅专栏

参考资料：李航《统计学习方法》

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法

对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布 $p (x, y)$ ；然后基于此模型，对给定的输入 $x$ ,利用贝叶斯定理求出后验概率 $p (y ∣ x)$ 最大的输出 $y$
利用训练数据学习 $p (x ∣ y)$ 和 $p (y)$ 的估计，得到联合概率分布： $p (x, y) = p (y) p (x ∣ y)$
概率估计可以使极大似然估计或贝叶斯估计

基本假设

朴素贝叶斯法的基本假设是条件独立性，
$\begin{aligned} P(X=x|Y=c_{k})&=P(X^{(1)}=x^{(1)},X^{(2)}=x^{(2)},...,X^{(n)}=x^{(n)}|Y=c_{k})\\ &=\prod \limits_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_{k}) \end{aligned}$
这是一个较强的假设，由于这一假设，模型包含的条件概率的数量大为减少，朴素贝叶斯法的学习与预测大为简化，高效易于实现，然而分类的性能不一定很高

$P(Y|X)=\frac {P(X,Y)}{P(X)}=\frac {P(Y)P(X|Y)}{\sum \limits_{Y}P(Y)P(X|Y)}$
将输入 $x$ 分到后验概率最大的类 $y$
$y=arg\max \limits{_{c_{k}}P(Y=c_{k})}\prod \limits_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_{k})$
后验概率最大等价于0-1损失函数时的期望风险最小化
朴素贝叶斯法实际上学习到的生成数据的机制，所以属于生成模型
条件独立假设等于说用于分类的特征在类确定的条件下都是独立的，这一假设使朴素贝叶斯法变得简单，但有时会牺牲一定的分类准确率。

极大似然估计

先验概率 $P(Y=c_{k})$ 的极大似然估计 $P(Y=c_{k})=\frac{\sum \limits_{i=1}^{N}I(y_{i}=c_{k})}{N},k=1,2,...,K$
设第 $j$ 个特征 $x^{(j)}$ 可能取值的集合为 ${a_{j1},a_{j2},...,a_{jS_j}\}$ ，
条件概率 $P(X^{(j)}=a_{jl}|Y=c_{k})$ 的极大似然估计 $P(X^{(j)}=a_{jl}|Y=c_{k})=\frac {\sum \limits_{i=1}^{N}I(x_{i}^{(j)}=a_{jl},y_{i}=c_{k})}{\sum \limits_{i=1}^{N}I(y_{i}=c_{k})}$ $j=1,2,...,n;l=1,2,...,S_{j};k=1,2,...,K$
$x_{i}^{(j)}$ 是第 $i$ 个样本的第 $j$ 个特征； $a_{jl}$ 是第 $j$ 个特征可能取的第 $l$ 个值; $I$ 为指示函数

贝叶斯估计

朴素贝叶斯法与贝叶斯估计是不同的概念

用极大似然估计可能会出现所要估计的概率值为0的情况，采用贝叶斯估计来解决这一问题
条件概率的贝叶斯估计是 $P_{\lambda}(X^{(j)}=a_{jl}|Y=c_{k})=\frac {\sum \limits_{i=1}^{N}I(x_{i}^{(j)}=a_{jl},y_{i}=c_{k})+\lambda}{\sum \limits_{i=1}^{N}I(y_{i}=c_{k})+S_{i}\lambda}$
式中 $\lambda>0$ ,常取 $\lambda=1$ ，这时称为拉普拉斯平滑,显然有
$P_{\lambda}(X^{(j)}=a_{jl}|Y=c_{k})>0$
$\sum \limits_{l=1}^{S_{j}}P_{\lambda}(X^{(j)}=a_{jl}|Y=c_{k})=1$
$l=1,2,...,S_{j},k=1,2,...,K$
表明贝叶斯估计是一种概率分布。同理，先验概率的贝叶斯估计是 $P_{\lambda}(Y=c_{k})=\frac{\sum \limits_{i=1}^{N}I(y_{i}=c_{k})+\lambda}{N+K\lambda},k=1,2,...,K$

朴素贝叶斯算法

输入：训练数据 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ,其中 $x_{i}=(x_{i}^{(1)},x_{i}^{(2)},...,x_{i}^{(N)})$ , $x_{i}^{(j)}$ 是第 $i$ 个样本的第 $j$ 个特征， $x_{i}^{(j)}\in \{a_{j1},a_{j2},...,a_{jS_{j}}\}$ , $a_{jl}$ 是第 $j$ 个特征可能取的第 $l$ 个值， $j=1,2,...,n,l=1,2,...,S_{j},y_{i}\in\{c_{1},c_2,...,c_K\}$ ;实例 $x$ ;

输出：实例 $x$ 的分类

（1）计算先验概率及条件概率
$P(Y=c_{k})=\frac{\sum \limits_{i=1}^{N}I(y_{i}=c_{k})}{N},k=1,2,...,K$
$P(X^{(j)}=a_{jl}|Y=c_{k})=\frac {\sum \limits_{i=1}^{N}I(x_{i}^{(j)}=a_{jl},y_{i}=c_{k})}{\sum \limits_{i=1}^{N}I(y_{i}=c_{k})}$
$j=1,2,...,n;l=1,2,...,S_{j};k=1,2,...,K$
（2）对于给定的实例 $x=(x^{(1)},x^{(2)},...,x^{(N)})$ ,计算 $P(Y=c_{k})\prod \limits_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_{k}),k=1,2,...,K$
（3）确定实例 $x$ 的类 $y=arg\max \limits{_{c_{k}}P(Y=c_{k})}\prod \limits_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_{k})$

习题4.1

习题：用极大似然估计法推出朴素贝叶斯中的概率估计公式
$P(Y=c_{k})=\frac{\sum \limits_{i=1}^{N}I(y_{i}=c_{k})}{N},k=1,2,...,K$
$P(X^{(j)}=a_{jl}|Y=c_{k})=\frac {\sum \limits_{i=1}^{N}I(x_{i}^{(j)}=a_{jl},y_{i}=c_{k})}{\sum \limits_{i=1}^{N}I(y_{i}=c_{k})}$

解答：把 $P(Y=c_{k})，P(X^{(j)}=a_{jl}|Y=c_{k})$ 当做参数, $\sum \limits_{k=1}^{K}P(y=c_k)=1$ 作为约束条件来求解参数值

由假设可知： $P(y)=\prod \limits_{k=1}^{K}P(y=c_{k})^{I(y=c_{k})}$ ，
$P(x|y=c_k)=\prod \limits_{j=1}^{n}P(x^{(j)}|y=c_{k})=\prod \limits_{j=1}^{n} \prod \limits_{l=1}^{S_j}P(x^{(j)}=a_{jl}|y=c_{k})^{I(x^{(j)}=a_{jl},y=c_k)}$
令 $\varphi = \{P(Y=c_{k})，P(X^{(j)}=a_{jl}|Y=c_{k})\}$ ,对数似然函数为：
$\begin{aligned} L(\varphi)&=log\prod \limits_{i=1}^{N}P(x_i,y_i;\varphi)=log\prod \limits_{i=1}^{N}P(x_i|y_i;\varphi)P(y_{i};\varphi)\\ &=log\prod \limits_{i=1}^{N} \prod \limits_{j=1}^{n}P(x_i^{(j)}|y_i;\varphi)P(y_{i};\varphi)\\ &=\sum \limits_{i=1}^{N} (P(y_{i};\varphi) + \sum \limits_{j=1}^{n}P(x_i^{(j)}|y_i;\varphi))\\ &=\sum \limits_{i=1}^{N} [\sum \limits_{k=1}^{K}logP(y=c_k)^{I(y_i=c_k)} + \sum \limits_{j=1}^{n} \sum \limits_{l=1}^{S_j}\sum \limits_{k=1}^{K}log P(x_i^{(j)}=a_{jl}|y_i=c_k)^{I(x_i^{(j)}=a_{jl},y_i=c_k)}]\\ &=\sum \limits_{i=1}^{N} [\sum \limits_{k=1}^{K}{I(y_i=c_k)}logP(y=c_k) + \sum \limits_{j=1}^{n} \sum \limits_{l=1}^{S_j}\sum \limits_{k=1}^{K}{I(x_i^{(j)}=a_{jl},y_i=c_k)}logP(x_i^{(j)}=a_{jl}|y_i=c_k)] \end{aligned}$
关于第一个参数 $P(Y=c_{k})$ 求导： $\frac {\partial {L(\varphi)}}{\partial P(y=c_k)}=\frac {\partial}{\partial P(y=c_k)}\sum \limits_{i=1}^{N}\sum \limits_{k=1}^{K}{I(y_i=c_k)}logP(y=c_k)$
由约束条件可知： $P(y=c_K)=1-\sum \limits_{k=1}^{K-1}P(y=c_k)$
$\Rightarrow\frac {\partial {L(\varphi)}}{\partial P(y=c_k)}=\frac {\partial}{\partial P(y=c_k)}\sum \limits_{i=1}^{N}[\sum \limits_{k=1}^{K-1}{I(y_i=c_k)}logP(y=c_k)+I(y_i=c_K)logP(y=c_K)]\\ =\frac {\partial}{\partial P(y=c_k)}\sum \limits_{i=1}^{N}[\sum \limits_{k=1}^{K-1}{I(y_i=c_k)}logP(y=c_k)+I(y_i=c_K)log(1-\sum \limits_{k=1}^{K-1}P(y=c_k))]$
先来求 $P(y=c_1)$ 的估计值：
$\begin{aligned} 0&=\frac {\partial}{\partial P(y=c_1)}\sum \limits_{i=1}^{N}[\sum \limits_{k=1}^{K-1}{I(y_i=c_k)}logP(y=c_k)+I(y_i=c_K)log(1-\sum \limits_{k=1}^{K-1}P(y=c_k))]\\ &=\sum \limits_{i=1}^{N}[\frac{I(y_i=c_1)}{P(y=c_1)}-\frac{I(y_i=c_K)}{1-\sum\limits_{a=1}^{K-1}P(y=c_a)}]\\ &=\sum \limits_{i=1}^{N}[\frac{I(y_i=c_1)}{P(y=c_1)}-\frac{I(y_i=c_K)}{P(y=c_K)}] \end{aligned}$

$P(y=c_K)$ 在此为由 $P(y=c_1)，P(y=c_2),...,P(y=c_{K-1})$ 决定的一个值
$\begin{aligned} \sum \limits_{i=1}^{N}[\frac{I(y_i=c_1)}{P(y=c_1)}-\frac{I(y_i=c_K)}{P(y=c_K)}]=0 \\ \end{aligned}$ $\begin{aligned} \Rightarrow P(y=c_K)\sum \limits_{i=1}^{N}I(y_i=c_1)-P(y=c_1)\sum \limits_{i=1}^{N}I(y_i=c_K)=0\\ \end{aligned}$ $\begin{aligned} P(y=c_1) &= \frac {\sum \limits_{i=1}^{N}I(y_i=c_1)}{\sum \limits_{i=1}^{N}I(y_i=c_K)} P(y=c_K)\\ P(y=c_2) &= \frac {\sum \limits_{i=1}^{N}I(y_i=c_2)}{\sum \limits_{i=1}^{N}I(y_i=c_K)} P(y=c_K)\\ &...... \\ P(y=c_K) &= \frac {\sum \limits_{i=1}^{N}I(y_i=c_K)}{\sum \limits_{i=1}^{N}I(y_i=c_K)} P(y=c_K) \end{aligned}$

累加上式 $P(y=c_1),P(y=c_2),...,P(y=c_K)$ 得到：
$P(y=c_1)+P(y=c_2)+...+P(y=c_K)=\frac{N}{\sum \limits_{i=1}^{N}I(y_i=c_K)} P(y=c_K)$
$\Rightarrow 1=\frac{N}{\sum \limits_{i=1}^{N}I(y_i=c_K)} P(y=c_K)$
$\Rightarrow P(y=c_K)=\frac{\sum \limits_{i=1}^{N}I(y_i=c_K)} {N}$
同理可得： $P(y=c_k)=\frac{\sum \limits_{i=1}^{N}I(y_i=c_k)} {N},k=1,2,..,K$
同理对 $P(X^{(j)}=a_{jl}|Y=c_{k})$ 求导，可得 $P(X^{(j)}=a_{jl}|Y=c_{k})=\frac {\sum \limits_{i=1}^{N}I(x_{i}^{(j)}=a_{jl},y_{i}=c_{k})}{\sum \limits_{i=1}^{N}I(y_{i}=c_{k})}$