【机器学习】朴素贝叶斯分类器

上一篇:多分类 & LinearSVC

朴素贝叶斯分类器

朴素贝叶斯分类器是与线性模型非常相似的一种分类器,但它的训练速度往往更快。这种高效率所付出的代价是,朴素贝叶斯模型的泛化能力要比线性分类器(如LogisticRegression和LinearSVC)稍差。
朴素贝叶斯模型如此高效的原因在于,它通过单独查看每个特征来学习参数,并从每个特征中收集简单的类别统计数据。

scikit-learn中实现了三种朴素贝叶斯分类器:GaussianNB、BernoulliNB和MultinomialNB。

  • GaussianNB可应用于任意连续数据
  • BernoulliNB假定输入数据为二分类数据
  • MultinomialNB假定输入数据为计数数据(即每个特征代表某个对象的整数计数,比如一个单词在句子里出现的次数)。
  • BernoulliNB和MultinomialNB主要用于文本数据分类。

BernoulliNB分类器计算每个类别中每个特征不为0的元素个数。用一个例子来说明会很容易理解:

import numpy as np

X = np.array([[0, 1, 0, 1],
              [1, 0, 1, 1],
              [0, 0, 0, 1],
              [1, 0, 1, 0]])
y = np.array([0, 1, 0, 1])

这里我们有4个数据点,每个点有4个二分类特征。一共有两个类别:0和1。对于类别0(第1、3个数据点),第一个特征有2个为零、0个不为零,第二个特征有1个为零、1个不为零,以此类推。然后对类别1中的数据点计算相同的计数。计算每个类别中的非零元素个数,大体上看起来像这样:

counts = {}
for label in np.unique(y):
    # 对每个类别进行遍历
    # 计算每个特征中1的个数
    counts[label] = X[y == label].sum(axis=0)
print("Feature counts:\n{}".format(counts))
===============================
Feature counts:
{0: array([0, 1, 0, 2]), 1: array([2, 0, 2, 1])}

另外两种朴素贝叶斯模型(MultinomialNB和GaussianNB)计算的统计数据类型略有不同。MultinomialNB计算每个类别中每个特征的平均值,而GaussianNB会保存每个类别中每个特征的平均值和标准差。

要想做出预测,需要将数据点与每个类别的统计数据进行比较,并将最匹配的类别作为预测结果。有趣的是,MultinomialNB和BernoulliNB预测公式的形式都与线性模型完全相同。不幸的是,朴素贝叶斯模型coef的含义与线性模型稍有不同,因为coef不同于w。

优点、缺点和参数

MultinomialNB和BernoulliNB都只有一个参数alpha,用于控制模型复杂度。alpha的工作原理是,算法向数据中添加alpha这么多的虚拟数据点,这些点对所有特征都取正值。这可以将统计数据“平滑化”(smoothing)。alpha越大,平滑化越强,模型复杂度就越低。算法性能对alpha值的鲁棒性相对较好,也就是说,alpha值对模型性能并不重要。但调整这个参数通常都会使精度略有提高。

GaussianNB主要用于高维数据,而另外两种朴素贝叶斯模型则广泛用于稀疏计数数据,比如文本。MultinomialNB的性能通常要优于BernoulliNB,特别是在包含很多非零特征的数据集(即大型文档)上。

朴素贝叶斯模型的许多优点和缺点都与线性模型相同。它的训练和预测速度都很快,训练过程也很容易理解。该模型对高维稀疏数据的效果很好,对参数的鲁棒性也相对较好。朴素贝叶斯模型是很好的基准模型,常用于非常大的数据集,在这些数据集上即使训练线性模型可能也要花费大量时间。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ZhShy23

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值