朴素贝叶斯是逆向求概率的过程
求P(C|W)在文档中有某个关键词的情况下,这个文档属于某个分类的概率
计算公式:P(C|W)=P(W|C)P(C)/P(W)
P(W|C)在文档属于某个类别的前提下,某个关键词出现的概率-------训练数据求出(朴素贝叶斯预测文档分类的原理是:根据以上公式,可以计算出某篇文档下出现得比较多的词,然后把这些词去每个分类下求下概率,在哪个分类下的概率高,那么就意味着这篇文章是属于哪个分类。 )
P(C)文档属于某类的概率---------------------------------------某个类别的文档/文档总数
P(W)关键词在某个文档出现的概率-------------------------------关键词出现的次数/文档中关键词总数
针对不同的数据,我们有不同的朴素贝叶斯模型来进行分类。
如果特征是离散型数据,比如文本这些,那么推荐使用多项式模型来实现;
如果特征是连续型数据,比如具体的数字,那么推荐使用高斯模型来实现;
如果特征是连续型数据并且值只有0和1两种情况,那么推荐使用伯努利模型。
虽然模型不同,但是原理都是朴素贝叶斯公式,只不过不同的模型,在计算概率的时候采用的方式不一样,比如高斯模型,那么是通过高斯分布函数来计算而已。