机器学习总结五之朴素贝叶斯

机器学习总结五之朴素贝叶斯

朴素贝叶斯模型

核心思想:通过已知类别的训练数据集,计算样本的先验概率,然后利用贝叶斯概率公式测算未知类别样本属于某个类别的后验概率,最终以最大后验概率所对应的类别作为样本的预测值。
数学模型:
P ( C i ∣ X ) = P ( C i ) P ( X ∣ C i ) P ( X ) P(C_{i}\mid X)=\frac{P(C_{i})P(X\mid C_{i})}{P(X)} P(CiX)=P(X)P(Ci)P(XCi)
假设上式中X为p维向量,且各个属性是相互独立的,则其可以写成下述形式
P ( C i ∣ X ) = P ( C i ) P ( X 1 ∣ C i ) P ( X 2 ∣ C i ) . . . P ( X p ∣ C i ) P ( X ) P(C_{i}\mid X)=\frac{P(C_{i})P(X_{1}\mid C_{i})P(X_{2}\mid C_{i})...P(X_{p}\mid C_{i})}{P(X)} P(CiX)=P(X)P(Ci)P(X1Ci)P(X2Ci)...P(XpCi)
上式中,等号左侧为未知类别样本属于某个类别的后验概率;等号右侧,分母相等,只是需要计算分子即可对比将该样本划分为类别集中每个类别的后验概率大小,然后将该样本划为后验概率最大的那个类别。其中,等号右侧都是可以通过训练数据集直接计算得到的先验概率。这里假设X的各个属性是相互独立的,此时的贝叶斯模型称之为朴素贝叶斯模型。
模型优点:运算简单高效;分类效率稳定;对缺失数据和异常数据不敏感。
模型缺点:模型的判断结果依赖于先验概率,所以分类结果存在一定的错误率;
模型的前提假设在实际应用中很难满足

内容扩展

  • 考虑到在数据集中某个属性值未与某个类同时出现过,直接通过上述模型计算后验概率,会使得后验概率为0,造成分类不合理。计算先验概率时常常进行平滑,常用的是拉普拉斯修正,即在分子上加1,分母上加上该属性可能的取值数N。
  • 由于朴素贝叶斯模型存在X向量属性之间相互独立这一假设很难满足的缺点,产生考虑X向量一部分属性之间具有相互依赖性的半朴素贝叶斯模型。常用的策略是假设X向量中的每个属性仅仅依赖于一个其他属性的独依赖估计
  • 贝叶斯模型常用来处理文本,tfidf是非常有用的文本表示方法。
  • 向量X属性为连续变量时,使用概率密度函数计算先验概率
  • 判别式模型和生成式模型:直接对后验概率建模的方式为判别式,例如逻辑回归,支持向量机,BP神经网络等;先对联合概率建模,然后再求后验概率的方式为生成式,如贝叶斯模型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值