朴素贝叶斯算法

参考资料:

李航“统计学习方法”

彼得哈灵顿“机器学习实战”

一,原理

(一)相关知识

这篇文章以挑西瓜为例,讲解了先验概率,后验概率,联合概率和条件概率相关概念以及朴素贝叶斯算法的原理。https://mp.weixin.qq.com/s/7xRyZJpXmeB77MZNLqVf3w 

(二)朴素贝叶斯算法

朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法。设输入空间\chi为n维向量的集合,输出空间为类标记集合\gamma={c1,c2,...,ck}.输入特征向量x,输出类标记y。训练数据集T=\left \{ (x_{1},y_{1}), (x_{2},y_{2}),... (x_{N},y_{N}) \right \}

根据贝叶斯定理

P(Y=c_{k}|X=x)=\frac{P(Y=c_{k},X=x)}{P(X=x)}=\frac{P(Y=c_{k})P(X=x|Y=c_{k})}{P(X=x)}

可以求得后验概率P(Y=c_{k}|X=x)       k=1,2,...,n。将后验概率最大的类作为x的类输出。

假设k=1,2

如果P(c1|X=x)>P(c2|X=x), 那么属于类别1,

如果P(c1|X=x)<P(c2|X=x),那么属于类别2。

要想求得后验概率,我们需要求以下值

1.P(Y=c_{k})=\frac{\sum_{i=1}^{N}I(y_{i}=c_{k})}{N}

2. 假设分类的特征在类确定的条件下是条件独立的(“朴素”的来源)。

P(X=x|Y=c_{k})=\prod _{j}P(X^{(j)} =x^{(j)}|Y=c_{k})

P(X=x)=\sum _{k}P(Y=c_{k})P(X=x|Y=c_{k})=\sum _{k}P(Y=c_{k})\prod _{j}P(X^{(j)} =x^{(j)}|Y=c_{k})

(三)算法

二、应用

使用朴素贝叶斯过滤垃圾邮件

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值