朴素贝叶斯二项式伯努利

最新推荐文章于 2021-09-13 14:23:53 发布

zjkman163com

最新推荐文章于 2021-09-13 14:23:53 发布

阅读量801

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/zjkman163com/article/details/107580609

版权

本文介绍了朴素贝叶斯分类器中的多项式模型（MultinomialNB）和伯努利模型（BernoulliNB）。多项式模型适用于离散特征，特别是文本数据，而伯努利模型关注特征的“是与否”。两者都常用于文本分类，但伯努利模型更注重特征的二值化。在使用中需要注意数据预处理，例如多项式模型要求无负值，伯努利模型则涉及二值化操作。

摘要由CSDN通过智能技术生成

介绍：
与高斯分布相反，多项式模型主要适用于离散特征的概率计算，且sklearn的多项式模型不接受输入负值。虽然sk-learn中的多项式模型也可以被用作在连续性特征概率计算中，但是我们如果想要处理连续性变量则最好选择使用高斯模型。
注意：因为多项式不接受负值的输入，所以如果样本数据的特征为数值型数据的话，务必要进行归一化处理保证特征数据中无负值出现！！！

多项式朴素贝叶斯API
from sklearn.naive_bayes import MultinomialNB
MultinomialNB(alpha=1.0, fit_prior=True, class_prior=None)
alpha:拉普拉斯平滑系数

sklearn文本特征提取——TfidfVectorizer（求出Ni/N的值）
什么是TF-IDF： TF表示某一个特征的频率，IDF是这个特征的权重
在信息检索中，tf-idf（词频-逆文档频率）是一种统计方法，用以评估一个单词在一个文档集合或语料库中的重要程度。
原理：
TF-IDF实际上是：TF * IDF。主要思想是：如果某个词或短语在一篇文章中出现的频率高（即TF高），并且在其他文章中很少出现（即IDF高），则认为此词或者短语具有很好的类别区分能力，适合用来分类。
TF：表示一个给定词语t在一篇给定文档d中出现的频率。TF越高，则词语t对文档d来说越重要，TF越低，则词语t对文档d来说越不重要。那是否可以以TF作为文本相似度评价标准呢？答案是不行的，举个例子&#x