假设我们现在有垃圾邮件样本、正常邮件样本、测试邮件,其中
垃圾邮件样本:
1.点击、更多、信息
2.最新、产品
3. 信息、点击、链接
正常邮件样本:
1.开会
2.信息、详见、邮件
3.最新、信息
测试邮件:
最新、产品、实惠、点击、链接
下面是计算步骤。
1 条件概率
注: 红色字体为平滑操作
P ( 点 击 ∣ 垃 圾 ) = 2 + 1 8 + 9 = 3 17 P(点击|垃圾) = \frac{2+\color{red}{1}}{8+\color{red}{9}} = \frac{3}{17} P(点击∣垃圾)=8+92+1=173 P ( 点 击 ∣ 正 常 ) = 0 + 1 6 + 9 = 1 15 P(点击|正常) = \frac{0+\color{red}{1}}{6+\color{red}{9}} = \frac{1}{15} P(点击∣正常)=6+90+1=151
P ( 更 多 ∣ 垃 圾 ) = 1 + 1 8 + 9 = 2 17 P(更多|垃圾) = \frac{1+\color{red}{1}}{8+\color{red}{9}} = \frac{2}{17} P(更多∣垃圾)=8+91+1=172 P ( 更 多 ∣ 正 常 ) = 0 + 1 6 + 9 = 1 15 P(更多|正常) = \frac{0+\color{red}{1}}{6+\color{red}{9}} = \frac{1}{15} P(更多∣正常)=6+90+1=151
P ( 信 息 ∣ 垃 圾 ) = 2 + 1 8 + 9 = 3 17 P(信息|垃圾) = \frac{2+\color{red}{1}}{8+\color{red}{9}} = \frac{3}{17} P(信息∣垃圾)=8+92+1=173 P ( 信 息 ∣ 正 常 ) = 2 + 1 6 + 9 = 3 15 P(信息|正常) = \frac{2+\color{red}{1}}{6+\color{red}{9}} = \frac{3}{15} P(信息∣正常)=6+92+1=153
P ( 最 新 ∣ 垃 圾 ) = 3 17 P(最新|垃圾) = \frac{3}{17} P(最新∣垃圾)=173 P ( 最 新 ∣ 正 常 ) = 1 15 P(最新|正常) = \frac{1}{15} P(最新∣正常)=151
P ( 链 接 ∣ 垃 圾 ) = 2 17 P(链接|垃圾) = \frac{2}{17} P(链接∣垃圾)=172 P ( 链 接 ∣ 正 常 ) = 1 15 P(链接|正常) = \frac{1}{15} P(链接∣正常)=151
P ( 开 会 ∣ 垃 圾 ) = 1 17 P(开会|垃圾) = \frac{1}{17} P(开会∣垃圾)=171 P ( 开 会 ∣ 正 常 ) = 2 15 P(开会|正常) = \frac{2}{15} P(开会∣正常)=152
P ( 邮 件 ∣ 垃 圾 ) = 1 17 P(邮件|垃圾) = \frac{1}{17} P(邮件∣垃圾)=171 P ( 邮 件 ∣ 正 常 ) = 2 15 P(邮件|正常) = \frac{2}{15} P(邮件∣正常)=152
P ( 详 见 ∣ 垃 圾 ) = 1 17 P(详见|垃圾) = \frac{1}{17} P(详见∣垃圾)=171 P ( 详 见 ∣ 正 常 ) = 2 15 P(详见|正常) = \frac{2}{15} P(详见∣正常)=152
P
(
产
品
∣
垃
圾
)
=
2
17
P(产品|垃圾) = \frac{2}{17}
P(产品∣垃圾)=172
P
(
产
品
∣
正
常
)
=
1
15
P(产品|正常) = \frac{1}{15}
P(产品∣正常)=151
2 先验概率
P
(
正
常
)
=
1
2
P(正常) = \frac12
P(正常)=21
P
(
垃
圾
)
=
1
2
P(垃圾) = \frac12
P(垃圾)=21
3 计算
P
(
正
常
∣
新
邮
件
)
=
P
(
新
邮
件
∣
正
常
)
×
P
(
正
常
)
P
(
新
邮
件
)
=
P
(
最
新
∣
正
常
)
×
P
(
产
品
∣
正
常
)
×
P
(
点
击
∣
正
常
)
×
P
(
链
接
∣
正
常
)
×
P
(
正
常
)
P
(
新
邮
件
)
=
2
15
×
1
15
×
1
15
×
1
15
×
1
2
P
(
新
邮
件
)
P(正常|新邮件) = \frac{P(新邮件|正常)×P(正常) }{P(新邮件)}\\ \\ \\ = \frac{P(最新|正常)×P(产品|正常)×P(点击|正常)×P(链接|正常)×P(正常)}{P(新邮件)} \\ \\ = \frac{ \frac{2}{15}× \frac{1}{15}× \frac{1}{15}× \frac{1}{15}× \frac{1}{2} }{P(新邮件)}
P(正常∣新邮件)=P(新邮件)P(新邮件∣正常)×P(正常) =P(新邮件)P(最新∣正常)×P(产品∣正常)×P(点击∣正常)×P(链接∣正常)×P(正常) =P(新邮件)152×151×151×151×21
注:
- 由于 “实惠” 未出现在样本中,因此第二个等号中缺少 P(实惠|正常)
- 实际上第二个等号应为约等号
- P(新邮件)为标准化常量,难以计算
同理可计算出 P(垃圾|新邮件),将二者比较即可得出预测结果