以下通过案例(根据气象情况预测出行)帮助我们理解贝叶斯分类的原理过程
已知某人的出行和出行时的气象记录如下:
天气 | 温度 | 湿度 | 刮风 | 出行 |
---|---|---|---|---|
雨 | 热 | 高 | 有 | 是 |
晴 | 凉 | 低 | 有 | 是 |
雨 | 中 | 低 | 无 | 否 |
雨 | 凉 | 高 | 有 | 否 |
晴 | 热 | 中 | 无 | 是 |
晴 | 热 | 高 | 有 | 否 |
由上述表格可知,数据的特征共有4个:天气、温度、湿度和刮风,类别共有2个:出行(是)、不出行(否)
下面我们来预测一下,在气象是雨、热、高、有
的情况下,这个人是否会出行?
这是一个典型的分类问题。转化为数学问题就是:比较p(是|雨,热,高,有)
与p(否|雨,热,高,有)
的概率,通过判断两个概率大小得出是否出行
根据朴素贝叶斯公式,可得
p
(
是
∣
雨
,
热
,
高
,
有
)
=
p
(
雨
,
热
,
高
,
有
∣
是
)
∗
p
(
是
)
p
(
雨
,
热
,
高
,
有
)
p(是|雨,热,高,有)=\frac{p(雨,热,高,有|是)*p(是)}{p(雨,热,高,有)}
p(是∣雨,热,高,有)=p(雨,热,高,有)p(雨,热,高,有∣是)∗p(是)
其中,p(雨,热,高,有|是)
表示已知出行发生的条件下气象为雨,热,高,有
的条件概率,p(是)
表示出行的先验概率,p(雨,热,高,有)
表示气象为雨,热,高,有
的先验概率
通过朴素贝叶斯公式,我们可以将无法直接求解的因转换为求解已知的三个量的果,将待求的量转化为其它可求的量,这就是贝叶斯公式所做的事情
由于朴素贝叶斯假设各个特征之间相互独立,因此有
p
(
雨
,
热
,
高
,
有
∣
是
)
=
p
(
雨
∣
是
)
∗
p
(
热
∣
是
)
∗
p
(
高
∣
是
)
∗
p
(
有
∣
是
)
p
(
雨
,
热
,
高
,
有
)
=
p
(
雨
)
∗
p
(
热
)
∗
p
(
高
)
∗
p
(
有
)
p(雨,热,高,有|是)=p(雨|是)*p(热|是)*p(高|是)*p(有|是) \\[3ex] p(雨,热,高,有)=p(雨)*p(热)*p(高)*p(有)
p(雨,热,高,有∣是)=p(雨∣是)∗p(热∣是)∗p(高∣是)∗p(有∣是)p(雨,热,高,有)=p(雨)∗p(热)∗p(高)∗p(有)
根据上式,我们只需要分别计算出等式右边的概率,也就得到了左边的概率
当样本量很大时,根据中心极限定理,样本的抽样分布服从正态分布,频率近似于概率,所以,这里我们直接进行统计即可
下面我们按照分子、分母分别求解概率p(是|雨,热,高,有)
与p(否|雨,热,高,有)
,通过比较两者大小得出这个人是否会出行的结论
1、p(是 | 雨, 热, 高, 有)
1)分子
p
(
是
)
=
3
/
6
p
(
雨
∣
是
)
=
1
/
3
p
(
热
∣
是
)
=
2
/
3
p
(
高
∣
是
)
=
1
/
3
p
(
有
∣
是
)
=
2
/
3
\begin{align} & p(是)=3/6 \notag \\ & p(雨|是)=1/3 \notag \\ & p(热|是)=2/3 \notag \\ & p(高|是)=1/3 \notag \\ & p(有|是)=2/3 \notag \end{align}
p(是)=3/6p(雨∣是)=1/3p(热∣是)=2/3p(高∣是)=1/3p(有∣是)=2/3
计算分子:p(雨,热,高,有|是)*p(是)
=2/81
2)分母
p
(
雨
)
=
3
/
6
p
(
热
)
=
3
/
6
p
(
高
)
=
3
/
6
p
(
有
)
=
4
/
6
\begin{align} & p(雨)=3/6 \notag \\ & p(热)=3/6 \notag \\ & p(高)=3/6 \notag \\ & p(有)=4/6 \notag \end{align}
p(雨)=3/6p(热)=3/6p(高)=3/6p(有)=4/6
计算分母:p(雨,热,高,有)
=1/12
则p(是|雨,热,高,有)
=24/81=8/27
2、p(否 | 雨, 热, 高, 有)
1)分子
p
(
否
)
=
3
/
6
p
(
雨
∣
否
)
=
2
/
3
p
(
热
∣
否
)
=
1
/
3
p
(
高
∣
否
)
=
2
/
3
p
(
有
∣
否
)
=
2
/
3
\begin{align} & p(否)=3/6 \notag \\ & p(雨|否)=2/3 \notag \\ & p(热|否)=1/3 \notag \\ & p(高|否)=2/3 \notag \\ & p(有|否)=2/3 \notag \end{align}
p(否)=3/6p(雨∣否)=2/3p(热∣否)=1/3p(高∣否)=2/3p(有∣否)=2/3
计算分子:p(雨,热,高,有|是)*p(是)
=4/81
2)分母
p
(
雨
)
=
3
/
6
p
(
热
)
=
3
/
6
p
(
高
)
=
3
/
6
p
(
有
)
=
4
/
6
\begin{align} & p(雨)=3/6 \notag \\ & p(热)=3/6 \notag \\ & p(高)=3/6 \notag \\ & p(有)=4/6 \notag \end{align}
p(雨)=3/6p(热)=3/6p(高)=3/6p(有)=4/6
计算分母:p(雨,热,高,有)
=1/12
则p(否|雨,热,高,有)
=48/81=16/27
3、结论
综上所述,8/27<16/27,即p(是|雨,热,高,有)
<p(否|雨,热,高,有)
最大后验概率为p(否|雨,热,高,有)
,因此,这个人在气象是雨、热、高、有
的情况下不会出行