朴素贝叶斯分类

一、背景知识

1.      概况

分类:根据概率论进行分类的方法,本质上是有监督的训练方式,概率值最大对应的类别即为所属的类别。

朴素:为了简化计算和公式,做出最原始和最简单的假设,即特征之间是相互独立的、每个特征是同等重要的。

2.      贝叶斯公式

Ci表示类别,W表示特征向量。

类比到语音识别的声学得分即为将求似然概率问题P(Ci|W)转化为求后验概率问题P(W|Ci),P(Ci)表示先验概率,P(W)是常量。

二、实例

社区论坛屏蔽侮辱性的言论。

1.      将文本转化为词向量

生成所有词的列表w,对应于一句话,将w中该句话里面所有的词设为1,其他设为0。

2.      计算

P(W|Ci): 对应于Ci分类的总的词数为N,Ci分类中单词Wi出现的频率为Ni,则Ni/N即为所求的概率。P(W|Ci)=P(W0|Ci)* P(W1|Ci) * P(W2|Ci)*…

3.      分类

对于输入文本,将其转化为词向量,与P(W|Ci)相乘累加,观察对应于哪个分类的概率最大。

三、参考

1.      《机器学习实战》

2.      http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html

3.      http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值