朴素贝叶斯文档分类

本文介绍了朴素贝叶斯模型在文本分类中的原理和应用。通过计算P(C|W)来确定文档的分类概率,公式包括P(W|C),P(C)和P(W)。不同类型的特征数据对应不同的朴素贝叶斯模型,如多项式模型用于离散特征,高斯模型用于连续特征,伯努利模型用于二元特征。模型间的差异主要在于概率计算方式,例如高斯模型利用高斯分布。
摘要由CSDN通过智能技术生成

朴素贝叶斯是逆向求概率的过程

求P(C|W)在文档中有某个关键词的情况下,这个文档属于某个分类的概率

计算公式:P(C|W)=P(W|C)P(C)/P(W)

P(W|C)在文档属于某个类别的前提下,某个关键词出现的概率-------训练数据求出(朴素贝叶斯预测文档分类的原理是:根据以上公式,可以计算出某篇文档下出现得比较多的词,然后把这些词去每个分类下求下概率,在哪个分类下的概率高,那么就意味着这篇文章是属于哪个分类。 )

P(C)文档属于某类的概率---------------------------------------某个类别的文档/文档总数

P(W)关键词在某个文档出现的概率-------------------------------关键词出现的次数/文档中关键词总数

针对不同的数据,我们有不同的朴素贝叶斯模型来进行分类。

如果特征是离散型数据,比如文本这些,那么推荐使用多项式模型来实现;

如果特征是连续型数据,比如具体的数字,那么推荐使用高斯模型来实现;

如果特征是连续型数据并且值只有0和1两种情况,那么推荐使用伯努利模型。

虽然模型不同,但是原理都是朴素贝叶斯公式,只不过不同的模型,在计算概率的时候采用的方式不一样,比如高斯模型,那么是通过高斯分布函数来计算而已。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值