机器学习系列——朴素贝叶斯

最新推荐文章于 2022-12-08 20:08:56 发布

数据科学家修炼之道

最新推荐文章于 2022-12-08 20:08:56 发布

阅读量203

点赞数

分类专栏： AI

本文为博主原创文章，欢迎转载，转载请注明出处。

本文链接：https://blog.csdn.net/xiligey1/article/details/87598247

版权

AI 专栏收录该内容

130 篇文章 7 订阅

订阅专栏

几个基本概念

介绍朴素贝叶斯之前，先看几个基本概念

条件概率

$P (A ∣ B)$ : 事件B发生的前提下A发生的概率
$P (A B)$ : 事件A和B同时发生的概率

$P(A|B)=\frac {P(AB)} {P(B)} \tag {1}$

当 $A, B$ 两个事件独立时， $P (A ∣ B) = P (A)$ , 此时 $P (A B) = P (A) * P (B)$

全概率公式

若事件 $B_1,B_2,...,B_n$ 是样本空间 $\Omega$ 的一个划分，则
$P(A)=P(AB_1)+P(AB_2),...,+P(AB_n)=\sum_{i=1}^nP(AB_i) \tag {2}$

全概率公式的好处在于，当一个事件的概率不好计算时，可以转化为条件概率来计算

贝叶斯公式

由公式1可得， $\tag {3}$
则 $P(B|A)=\frac {P(A|B)P(B)} {P(A)} \tag {4}$
将公式2代入公式4，可得
$P(B|A)=\frac {P(A|B)P(B)} {P(A)}=\frac {P(A|B)P(B)} {\sum_{i=1}^nP(AB_i)} \tag {5}$

朴素贝叶斯的算法原理

如上，已经得到公式5，我们将 $A, B$ 都赋予在实际的应用场景——垃圾邮件上:

id	$A_1$	$A_2$	…	$A_n$	垃圾邮件
1	1	1	…	1	是
2	1	1	…	0	是
3	1	0	…	1	是
4	1	0	…	0	是
5	0	1	…	0	否
6	0	0	…	0	否
…	…	…	…	…	…

假设我们从邮件中提取到了n个关键字 $A_1,A_2,...,A_n$ ，这n个关键字组成了样本空间 $\Omega$

$A$ : 代表特征(可理解为训练集的一条记录)，有n个元素， $f(该邮件是否包含关键字A_1), f(该邮件是否包含关键字A_2),...,f(该邮件是否包含关键字A_n)]$
其中 $f(A_i)=\begin{cases} 1, & 包含该关键字\\ 0,& 不包含该关键字\end{cases}$
$B$ : 代表类别，存在两个类别
- $B_1$ : 这封邮件是垃圾邮件
- $B_2$ : 这封邮件不是垃圾邮件
$P(B_1|A)$ : 当特征为 $f(该邮件是否包含关键字A_1), f(该邮件是否包含关键字A_2),...,f(该邮件是否包含关键字A_n)]$ 时，该邮件是垃圾邮件的概率
$P(B_2|A)$ : 当特征为 $f(该邮件是否包含关键字A_1), f(该邮件是否包含关键字A_2),...,f(该邮件是否包含关键字A_n)]$ 时，该邮件不是垃圾邮件的概率

我们只需要算出 $P(B_1|A)$ 和 $P(B_2|A)$ ，取概率大的那一类作为分类结果即可。

于是问题变成了:
$argmax_i(P(B_1|A),P(B_2|A)) \tag {6}$ ，其中 $i\in \{1,2\}$
将公式5带入6可得：
$argmax_i(P(B_1|A),P(B_2|A))=argmax_i(\frac {P(A|B_1)P(B_1)} {\sum_{i=1}^2P(AB_i)},\frac {P(A|B_2)P(B_2)} {\sum_{i=1}^2P(AB_i)}) \tag{7}$

公式7中分母相同，则问题可简化为 $argmax_i(P(A|B_1)P(B_1),P(A|B_2)P(B_2)) \tag{8}$
上文说到，事件 $A$ 可理解为训练集的任意一条记录，不妨令事件 $A$ 等于： $A_1=1,A_2=0,...,A_n=0$

则：
$\begin{aligned} P(A|B_1)& =P(A_1=1,A_2=0,...,A_n=0|B_1) \\ & =P(A_1=1|B_1)*P(A_2=0|B_1)*...*P(A_n=0|B_1)\\ & = \prod_{i=1}^nP(A_i=1 \ or\ 0|B_1)\end{aligned} \tag{9}$