朴素贝叶斯算法

Garlic frog

于 2022-11-27 19:37:15 发布

阅读量5.6k

点赞数 3

本文链接：https://blog.csdn.net/weixin_55773387/article/details/128058379

版权

本文介绍了朴素贝叶斯算法的基础概念，包括其基于贝叶斯定理和特征条件独立的假设。文章通过举例说明了条件概率和朴素贝叶斯公式的运用，并探讨了该算法在垃圾邮件分类中的实现步骤，强调了训练集准备和数据处理的重要性。总结中提到了朴素贝叶斯算法的优点和缺点，指出在小样本和多类别问题中表现良好，但对输入数据的处理敏感，且独立假设可能导致准确性损失。

摘要由CSDN通过智能技术生成

朴素贝叶斯公式来历

NaïveBayes算法，又叫朴素贝叶斯算法。
朴素：特征条件独立；
贝叶斯：基于贝叶斯定理。属于监督学习的生成模型，实现简单，没有迭代，并有坚实的数学理论（即贝叶斯定理）作为支撑。在大量样本下会有较好的表现，不适用于输入向量的特征条件有关联的场景。
朴素贝叶斯（Naive Bayesian）是基于贝叶斯定理和特征条件独立假设的分类方法，它通过特征计算分类的概率，选取概率大的情况，是基于概率论的一种机器学习分类（监督学习）方法，被广泛应用于情感分类领域的分类器。
朴素贝叶斯算法是应用最为广泛的分类算法之一，在垃圾邮件分类等场景展露出了非常优秀的性能。
在介绍朴素贝叶斯公式前，先介绍一下条件概率公式。条件概率表示在B已经发生的条件下，A发生概率。

朴素贝叶斯公式就是条件概率的变形。
假设已有数据为

其中x为属性值，y为分类结果，共有n个已有数据。每个x有多种属性，以第一组数据为例，上标表示第几个属性值，x的具体表示如下

假设y的可取值为(c1,c2,…,ck)
则贝叶斯公式表示为

由公式可以看出，贝叶斯公式就是条件概率的公式。贝叶斯公式的解释很简单：在已有数据的基础上，出现了一个新数据，只有X=(a1,a2,…,am)，来预测y的取值。贝叶斯公式就是求在目前X发生的情况下，y取不同值的概率大小进行排序，取最大概率的y值。
其中X有多个属性，朴素贝叶斯假设各个属性之间是独立的，因此

因此朴素贝叶斯公式可以写成

此公式的含义就是在目前已知历史数据数据的前提下，出现了一个新的X，求在X已经发生的条件下，y取不同值的概率，然后取使得条件概率最大的y作为预测结果。也就是说寻找y的取值Cn，使得上式最大。