MapReduce之基于符号数据的朴素贝叶斯分类（一）

最新推荐文章于 2022-03-11 11:10:58 发布

路人张的鱼生

最新推荐文章于 2022-03-11 11:10:58 发布

阅读量1k

点赞数

分类专栏： MapReduce 机器学习文章标签： MapReduce

本文链接：https://blog.csdn.net/zhangdy12307/article/details/101875792

版权

MapReduce 同时被 2 个专栏收录

41 篇文章 8 订阅

订阅专栏

机器学习

10 篇文章 0 订阅

订阅专栏

MapReduce之基于符号数据的朴素贝叶斯分类

简介

朴素贝叶斯（NBC）是一个基于独立假设应用的贝叶斯定理的概论分类器，NBC根据输入的一些属性将输入分配到 $k$ 个类{ $C_1,C_2,\dots,C_k$ }中的某一类。NBC有很多应用，如垃圾邮件过滤和文档分类等。
以垃圾邮件分类为例。使用NBC的垃圾邮件过滤器将把各个电子邮件分配到两个簇之一：垃圾邮件和非垃圾邮件。由于NBC是一个监督型学习方法，它有两个不同的阶段：

阶段1：训练
这个阶段使用一个有限的数据样本实例集合中的训练数据建立一个分类器（在下一个阶段使用）。这就是所谓的监督型学习方法，即从一个样本学习，然后使用这个信息来完成新数据分类。

阶段2：分类
在这个阶段中，使用训练数据和贝叶斯定理将新数据分类到阶段1中明确的某一个类别中

     分类过程
   新数据= $(X)$ ={ $X_1.X_2,\dots,X_n$ }
   类C是{ $C_1,C_2,C_k$ }的一个成员

符号训练数据

以如下数据为例，数据来自《Machine Learning》

示例符号训练数据

天气	温度	湿度	风力	是否可以打球（分类）
Sunny	Hot	High	Weak	No
Sunny	Hot	High	Strong	No
Overcast	Hot	High	Weak	Yes
Rain	Mild	High	Weak	Yes
Rain	Cool	Normal	Weak	Yes
Rain	Cool	Normal	Strong	No
Overcast	Cool	Normal	Strong	Yes
Sunny	Mild	High	Weak	No
Sunny	Cool	Normal	Weak	Yes
Rain	Mild	Normal	Weak	Yes
Sunny	Mild	Normal	Strong	Yes
Overcast	Mild	High	Strong	Yes
Overcast	Hot	Normal	Weak	Yes
Rain	Mild	High	Strong	No

”是否可以打球“列是分类列，这里有两个类别{yes,no}
每个数据集有4个属性，天气(outlook)，温度(temperature)，湿度(humidity)，风力(wind)，各个数据实例是一个 $m$ 维属性值向量： $X=(X_1,X_2,\dots,X_m)$
训练数据的大小为14，
目标是使用这个训练数据建立一个分类系统，分类系统会根据天气条件来确定是否可以打网球

朴素贝叶斯分类器

先用简单的形式化表示来描述贝叶斯理论：令A和B是两个事件，P(A)和P(B)为A和B的概率(均不为0)，则
$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$
由此得出贝叶斯理论的一般形式：令A是一个互斥事件序列{ $A_1,A_2,\dots,A_n$ }，其并集是整个样本空间，令E是某个事件且 $P (E) > 0$ ，对于所有的 $i$ , $P(A_i )>0$ ,则：
对于所有的 $j\in \{1,2,\dots,n\}$
$P(A_j)=\frac{P(A_j)P(E|A_j)}{\sum_{i=1}^nP(A_i)P(E|A_i)}$

贝叶斯理论用于分类的形式化描述如下：令 $X=(X_1=u_1,\dots,X_m=u_m)$ 是一个需要分类的数据实例，令 $C=\{C_1,C_2,\dots,C_k\}$ 是不同类别的一个有限集合，使用贝叶斯理论，可以预测一个给定 $X$ 的类别 $C^{predict}\in\{C_1,C_2,\dots,C_k\}$ ;
      $C^{predict}= arg max P(C=c|X_1=u_1,\dots,X_m=u_m)$
                      $\frac{P(C=c,X_1=u_1,\dots,X_m=u_m)}{P(X_1=u_1,\dots,X_m=u_m)}$
                      $\frac{P(X_1=u_1,\dots,X_m=u_m|C=c)P(C=c)}{P(X_1=u_1,\dots,X_m=u_m)}$
                      $P(X_1=u_1,\dots,X_m=u_m|C=c)P(C=c)$
                      $P(C=c)\prod_{j=1}^mP(X_j=u_j|C=c)$
在第三步和第四步的转换过程中，由于分母不会改变，在整个计算过程中作为一个常量，所以去掉了分母。

朴素贝叶斯示例

在这个NBC示例中，如何对以下输入数据分类
$X = (o u t l o o k = O v e r c a s t, t e m p e r a t u r e = H o t, h u m i d i t y = H i g h, w i n d = S t r o n g)$
$X=(X_1=Overcast,X_2=Hot,X_3=High,X_4=Strong)$
答案是Yes还是No，对于这个例子，有两个类：

$C=(C_1,C_2)=(Yes,No)$
$P(C_1)=P(Yes)=9/14$
$P(C_2)=P(No)=5/14$

根据贝叶斯分类，可以有：
$C^{predict}=arg maxP(C=c)\prod_{j=1}^{m}P(X_j=u_j|C=c)=max\{V_1,V_2\}$
在这里：
$V_1=\{P(C=C1)P(X_1|C=C_1)P(X_2|C=C_1)P(X_3|C=C_1)P(X_4|C=C_1)\}$
$V_2=\{P(C=C_2)P(X_1|C=C_2)P(X_2|C=C_2)P(X_3|C=C_2)P(X_4|C=C_2)\}$
如果 $V_1>V_2$ ，则 $X$ 的分类为 $C_1$ =Yes,否则，分类为 $C_2$ =No

下面是 $C_1=Yes$ 的条件概率计算：

$P(X_1|C=C_1)=P("overcast"|C=Yes)=?$

在 $p l a y T e n n i s = Y e s$ （打球）的9中情况中，有4中情况 $o u t l o o k = “ o v e r c a s t ”$ ，因此， $P (o u t l o o k = " o v e r c a s t " ∣ p l a y T e n n i s = Y e s) = 4 / 9$ ，还可以表示为 $P(X_1=overcast|C_1)=4/9$

$P(X_2|C=C_1)=P("Hot"|C=Yes)=?$

在 $p l a y T e n n i s = Y e s$ 的9中情况中，有2中情况 $T e m p e r a t u r e = " H o t "$ ，因此， $P (T e m p e r a t u r e = " H o t " ∣ p l a y T e n n i s = Y e s) = 2 / 9$ ，还可以表示为 $P(X_2=Hot|C_1)=2/9$
同理可以表示为 $P(X_3|C=C_1)=P("High"|C=Yes)=3/9$ ， $P(X_4|C=C_1)=P("Strong"|C=Yes)=3/9$

接下来是计算 $C_2=NO$ 的条件概率：

$P(X_1|C=C_2)=P("overcast"|C=No)=?$

在 $p l a y T e n n i s = N o$ 的5种情况中，有0中情况 $o u t l o o k = " o v e r c a s t "$ ，因此， $P (o u t l o o k = " o v e r c a s t " ∣ p l a y T e n n i s = N o) = 0 / 5$ ,同理表示为 $P(X_1=overcast|C_2)=0/5$

$P(X_2|C=C_2)=P("Hot"|C=No)=?$

在 $p l a y T e n n i s = N o$ 的5中情况中，有2种情况 $t e m p e r a t u r e = " H o t "$ ，因此， $P (t e m p e r a t u r e = " H o t " ∣ p l a y T e n n i s = N o) = 2 / 5$ ,同理可以表示为 $P(X_2=Hot|C_2)=2/5$

同理 $P(X_3|C=C_2)=P("High"|C=No)=4/5,P(X_4|C=C_2)=P("Strong"|C=No)=3/5$

插入这些值，可以得到：
$V_1=\frac{9}{14}\times\frac{4}{9}\times\frac{2}{9}\times\frac{3}{9}\frac{3}{9}=\frac{648}{91854}$
$V_2=\frac{5}{14}\frac{0}{5}\frac{2}{5}\frac{4}{5}\frac{3}{5}=0$
由于 $V_1>V_2$ ，则将X分类为 $C_1=Yes$
在下一篇博客中，将讲解如何利用MapReduce去实现这个过程