朴素贝叶斯(Naive Bayes)的基本理论

最新推荐文章于 2023-03-09 14:18:23 发布

weixin_45690427

最新推荐文章于 2023-03-09 14:18:23 发布

阅读量697

点赞数

原文链接：https://tianchi.aliyun.com/specials/promotion/aicampml?invite_channel=2&spm=5176.12901015.0.i12901015.1b65525cclj5hL

版权

1.1 实验环境，即所需的函数库以及其版本

python3.7
numpy >= ‘1.16.4’
sklearn >= ‘0.23.1’

1.2 朴素贝叶斯的介绍
朴素贝叶斯算法（Naive Bayes, NB) 是应用最为广泛的分类算法之一。它是基于贝叶斯定义和特征条件独立假设的分类器方法。由于朴素贝叶斯法基于贝叶斯公式计算得到，有着坚实的数学基础，以及稳定的分类效率。NB模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。当年的垃圾邮件分类都是基于朴素贝叶斯分类器识别的。
什么是条件概率，我们从一个摸球的例子来理解。我们有两个桶：灰色桶和绿色桶，一共有7个小球，4个蓝色3个紫色，分布如下图：
在这里插入图片描述
从这7个球中，随机选择1个球是紫色的概率p是多少？选择过程如下：

1.3 朴素贝叶斯的应用
朴素贝叶斯算法假设所有特征的出现相互独立互不影响，每一特征同等重要，又因为其简单，而且具有很好的可解释性一般。相对于其他精心设计的更复杂的分类算法，朴素贝叶斯分类算法是学习效率和分类效果较好的分类器之一。朴素贝叶斯算法一般应用在文本分类，垃圾邮件的分类，信用评估，钓鱼网站检测等。

在这里插入图片描述

2.4.3 朴素贝叶斯的优缺点
优点：朴素贝叶斯算法主要基于经典的贝叶斯公式进行推倒，具有很好的数学原理。而且在数据量很小的时候表现良好，数据量很大的时候也可以进行增量计算。由于朴素贝叶斯使用先验概率估计后验概率具有很好的模型的可解释性。

缺点：朴素贝叶斯模型与其他分类方法相比具有最小的理论误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型给定输出类别的情况下，假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进，例如为了计算量不至于太大，我们假定每个属性只依赖另外的一个。解决特征之间的相关性，我们还可以使用数据降维(PCA)的方法，去除特征相关性，再进行朴素贝叶斯计算。

weixin_45690427

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
朴素贝叶斯(Naive Bayes)的基本理论

1.1 实验环境，即所需的函数库以及其版本python3.7numpy >= ‘1.16.4’sklearn >= ‘0.23.1’1.2 朴素贝叶斯的介绍朴素贝叶斯算法（Naive Bayes, NB) 是应用最为广泛的分类算法之一。它是基于贝叶斯定义和特征条件独立假设的分类器方法。由于朴素贝叶斯法基于贝叶斯公式计算得到，有着坚实的数学基础，以及稳定的分类效率。NB模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。当年的垃圾邮件分类都是基于朴素贝叶斯分类器识别的。什么
复制链接

扫一扫