垃圾邮件识别-朴素贝叶斯算法

最新推荐文章于 2022-10-07 21:18:35 发布

VIP文章 zqzq19950725

最新推荐文章于 2022-10-07 21:18:35 发布

阅读量5.2k

点赞数 5

本文链接：https://blog.csdn.net/zqzq19950725/article/details/86606037

版权

1、数据集

垃圾邮件识别使用的数据集为Enron-Spam数据集，该数据集是目前在电子邮件相关研究中使用最多的公开数据集，其邮件数据是安然公司（Enron Corporation, 原是世界上最大的综合性天然气和电力公司之一，在北美地区是头号天然气和电力批发销售商）150位高级管理人员的往来邮件。这些邮件在安然公司接受美国联邦能源监管委员会调查时被其公布到网上。

机器学习领域使用Enron-Spam数据集来研究文档分类、词性标注、垃圾邮件识别等，由于Enron-Spam数据集都是真实环境下的真实邮件，非常具有实际意义。

Enron-Spam数据集合如图所示使用不同文件夹区分正常邮件和垃圾邮件。

Enron-Spam数据集对应的网址为：http://www2.aueb.gr/users/ion/data/enron-spam/

2、特征提取

文本特征提取有两个非常重要的模型：

词集模型：单词构成的集合，集合中每个元素都只有一个，也即词集中的每个单词都只有一个

词袋模型：如果一个单词在文档中出现不止一次，并统计其出现的次数（频数）

使用朴素贝叶斯算法，特征提取采用词袋模型。

导入相关的函数库：

>>> from sklearn.feature_extraction.text import CountVectorizer

实例化分词对象：

>>> vectorizer = CountVectorizer(min_df=1)
>>> vectorizer
CountVectorizer(analyzer='word', binary=False, deco

最低0.47元/天解锁文章

zqzq19950725

关注

5
点赞
踩
30

收藏

觉得还不错? 一键收藏
4
评论
垃圾邮件识别-朴素贝叶斯算法

1、数据集垃圾邮件识别使用的数据集为Enron-Spam数据集，该数据集是目前在电子邮件相关研究中使用最多的公开数据集，其邮件数据是安然公司（Enron Corporation, 原是世界上最大的综合性天然气和电力公司之一，在北美地区是头号天然气和电力批发销售商）150位高级管理人员的往来邮件。这些邮件在安然公司接受美国联邦能源监管委员会调查时被其公布到网上。机器学习领域使用Enro...
复制链接

扫一扫