基于朴素贝叶斯分类方法个人总结

本文深入介绍了贝叶斯决策理论,通过实例展示了如何使用条件概率进行文本分类。详细讲述了如何从文本中构建向量,计算词向量概率,并针对实际情况进行改进,如处理概率为0和下溢出问题。最后,通过垃圾邮件过滤案例,演示了贝叶斯分类器的实际应用。
摘要由CSDN通过智能技术生成

贝叶斯决策理论定义

贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。 贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。

假设有一个数据集,它由两类数据组成,数据分布如图所示:
在这里插入图片描述
现在用p1(x,y)表示数据点(x,y)属于类型1(图中圆形表示的类型)的概率,用p2(x,y)表示数据点(x,y)属于类型2(图中加号表示的类型)的概率,那么对于一个新的数据点(x,y),可以用下面的规则来判断它的类别:

  1. 如果p1(x,y)>p2(x,y),那么为类别1。
  2. 如果p1(x,y)<p2(x,y),那么为类别2。

也就是说,我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想,即选择最高概率的决策。

使用条件概率分类

上面提到的p1,p2只是为了尽可能简化描述,真正需要计算和比较的是 p ( c 1 ∣ x , y ) p(c_{1}|x,y) p(c1x,y) p ( c 2 ∣ x , y ) p(c_{2}|x,y) p(c2x,y)。符号表达的具体意义是:
给定某个由x,y表示的数据点,那么该数据点来自类别 c 1 c_{1} c1的概率是多少?数据点来自类别 c 2 c_{2} c2的概率又是多少?通过贝叶斯准则可以得到:
p ( c i ∣ x , y ) = p ( x , y ∣ c i ) p ( c i ) p ( x , y ) p(c_{i}|x,y)=\frac{p(x,y|c_{i})p(c_{i})}{p(x,y)} p(cix,y)=p(x,y)p(x,yci)p(ci)
使用这些定义,可以定义贝叶斯分类准则为:

  1. 如果 p ( c 1 ∣ x , y ) &gt; p ( c 2 ∣ x , y ) p(c_{1}|x,y)&gt;p(c_{2}|x,y) p(c1x,y)>p(c2x,y),那么属于类别 c 1 c_{1} c1
  2. 如果 p ( c 1 ∣ x , y ) &lt; p ( c 2 ∣ x , y ) p(c_{1}|x,y)&lt;p(c_{2}|x,y) p(c1x,y)<p(c2x,y),那么属于类别 c 2 c_{2} c2
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值