机器学习朴素贝叶斯分类垃圾邮件

最新推荐文章于 2023-11-20 17:30:37 发布

weixin_48882021

最新推荐文章于 2023-11-20 17:30:37 发布

阅读量1.9k

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/weixin_48882021/article/details/121617462

版权

本文介绍了使用朴素贝叶斯分类器进行垃圾邮件检测的方法，包括贝叶斯公式、判别模型与生成模型的概念，以及如何通过拉普拉斯修正和防溢出策略处理数据。通过构建词向量、训练分类器和测试，最终得出60%的错误率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、前言

对于分类问题，其实谁都不会陌生，日常生活中我们每天都进行着分类过程。例如，当你看到一个人，你的脑子下意识判断他是学生还是社会上的人；你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱、”之类的话，其实这就是一种分类操作。

既然是贝叶斯分类算法，那么分类的数学描述又是什么呢？

从数学角度来说，分类问题可做如下定义：已知集合和，确定映射规则y = f()，使得任意 [公式] 有且仅有一个,使得成立。

其中C叫做类别集合，其中每一个元素是一个类别，而I叫做项集合（特征集合），其中每一个元素是一个待分类项，f叫做分类器。分类算法的任务就是构造分类器f。

二、朴素贝叶斯原理

1.贝叶斯公式：

换个表达形式就会明朗很多，如下：

2.判别模型和生成模型

判别模型：由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型，即判别模型。基本思想是有限样本条件下建立判别函数，不考虑样本的产生模型，直接研究预测模型。典型的判别模型包括k近邻，感知级，决策树，支持向量机等。

生成模型：由数据学习联合概率密度分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型：P(Y|X)= P(X,Y)/ P(X)。基本思想是首先建立样本的联合概率概率密度模型P(X,Y)，然后再得到后验概率P(Y|X)，再利用它进行分类，就像上面说的那样。注意了哦，这里是先求出P(X,Y)才得到P(Y|X)的，然后这个过程还得先求出P(X)。P(X)就是你的训练数据的概率分布。