朴素贝叶斯问题举例

假设我们现在有垃圾邮件样本、正常邮件样本、测试邮件,其中

垃圾邮件样本
1.点击、更多、信息
2.最新、产品
3. 信息、点击、链接

正常邮件样本
1.开会
2.信息、详见、邮件
3.最新、信息

测试邮件
最新、产品、实惠、点击、链接

下面是计算步骤。

1 条件概率

注: 红色字体为平滑操作

P ( 点 击 ∣ 垃 圾 ) = 2 + 1 8 + 9 = 3 17 P(点击|垃圾) = \frac{2+\color{red}{1}}{8+\color{red}{9}} = \frac{3}{17} P()=8+92+1=173       P ( 点 击 ∣ 正 常 ) = 0 + 1 6 + 9 = 1 15 P(点击|正常) = \frac{0+\color{red}{1}}{6+\color{red}{9}} = \frac{1}{15} P()=6+90+1=151

P ( 更 多 ∣ 垃 圾 ) = 1 + 1 8 + 9 = 2 17 P(更多|垃圾) = \frac{1+\color{red}{1}}{8+\color{red}{9}} = \frac{2}{17} P()=8+91+1=172       P ( 更 多 ∣ 正 常 ) = 0 + 1 6 + 9 = 1 15 P(更多|正常) = \frac{0+\color{red}{1}}{6+\color{red}{9}} = \frac{1}{15} P()=6+90+1=151

P ( 信 息 ∣ 垃 圾 ) = 2 + 1 8 + 9 = 3 17 P(信息|垃圾) = \frac{2+\color{red}{1}}{8+\color{red}{9}} = \frac{3}{17} P()=8+92+1=173       P ( 信 息 ∣ 正 常 ) = 2 + 1 6 + 9 = 3 15 P(信息|正常) = \frac{2+\color{red}{1}}{6+\color{red}{9}} = \frac{3}{15} P()=6+92+1=153

P ( 最 新 ∣ 垃 圾 ) = 3 17 P(最新|垃圾) = \frac{3}{17} P()=173            P ( 最 新 ∣ 正 常 ) = 1 15 P(最新|正常) = \frac{1}{15} P()=151

P ( 链 接 ∣ 垃 圾 ) = 2 17 P(链接|垃圾) = \frac{2}{17} P()=172           P ( 链 接 ∣ 正 常 ) = 1 15 P(链接|正常) = \frac{1}{15} P()=151

P ( 开 会 ∣ 垃 圾 ) = 1 17 P(开会|垃圾) = \frac{1}{17} P()=171           P ( 开 会 ∣ 正 常 ) = 2 15 P(开会|正常) = \frac{2}{15} P()=152

P ( 邮 件 ∣ 垃 圾 ) = 1 17 P(邮件|垃圾) = \frac{1}{17} P()=171           P ( 邮 件 ∣ 正 常 ) = 2 15 P(邮件|正常) = \frac{2}{15} P()=152

P ( 详 见 ∣ 垃 圾 ) = 1 17 P(详见|垃圾) = \frac{1}{17} P()=171           P ( 详 见 ∣ 正 常 ) = 2 15 P(详见|正常) = \frac{2}{15} P()=152

P ( 产 品 ∣ 垃 圾 ) = 2 17 P(产品|垃圾) = \frac{2}{17} P()=172           P ( 产 品 ∣ 正 常 ) = 1 15 P(产品|正常) = \frac{1}{15} P()=151

2 先验概率

P ( 正 常 ) = 1 2 P(正常) = \frac12 P()=21   P ( 垃 圾 ) = 1 2 P(垃圾) = \frac12 P()=21

3 计算

P ( 正 常 ∣ 新 邮 件 ) = P ( 新 邮 件 ∣ 正 常 ) × P ( 正 常 ) P ( 新 邮 件 )                             = P ( 最 新 ∣ 正 常 ) × P ( 产 品 ∣ 正 常 ) × P ( 点 击 ∣ 正 常 ) × P ( 链 接 ∣ 正 常 ) × P ( 正 常 ) P ( 新 邮 件 )                                                               = 2 15 × 1 15 × 1 15 × 1 15 × 1 2 P ( 新 邮 件 ) P(正常|新邮件) = \frac{P(新邮件|正常)×P(正常) }{P(新邮件)}\\ \\  \\              = \frac{P(最新|正常)×P(产品|正常)×P(点击|正常)×P(链接|正常)×P(正常)}{P(新邮件)}              \\              \\      = \frac{ \frac{2}{15}× \frac{1}{15}× \frac{1}{15}× \frac{1}{15}× \frac{1}{2} }{P(新邮件)} P()=P()P()×P()              =P()P()×P()×P()×P()×P()                               =P()152×151×151×151×21
注:

  1. 由于 “实惠” 未出现在样本中,因此第二个等号中缺少 P(实惠|正常)
  2. 实际上第二个等号应为约等号
  3. P(新邮件)为标准化常量,难以计算

同理可计算出 P(垃圾|新邮件),将二者比较即可得出预测结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值