基于jieba、TfidfVectorizer、LogisticRegression的垃圾邮件分类

最新推荐文章于 2024-05-11 10:19:22 发布

xiaosakun

最新推荐文章于 2024-05-11 10:19:22 发布

阅读量1.7k

点赞数 2

本文链接：https://blog.csdn.net/xiaosa_kun/article/details/84868456

版权

这篇博客介绍了如何利用jieba进行中文分词，结合TfidfVectorizer转换文本数据，并使用LogisticRegression进行垃圾邮件分类。作者通过数据下载、预处理、模型训练和评估，展示了整个流程，最终模型在测试集上的表现优秀。

摘要由CSDN通过智能技术生成

2018年9月27日笔记

jieba中文叫做结巴，是一款中文分词工具，官方文档链接：https://github.com/fxsjy/jieba
TfidfVectorizer中文叫做___ 词频逆文档频率向量化模型，是用来文章内容向量化的工具，官方文档链接：http://sklearn.apachecn.org/cn/0.19.0/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html
LogisticRegression中文叫做逻辑回归模型___，是一种基础、常用的分类方法。

建议读者安装anaconda，这个集成开发环境自带了很多包。
到2018年9月27日仍为最新版本的anaconda下载链接: https://pan.baidu.com/s/1pbzVbr1ZJ-iQqJzy1wKs0A 密码: g6ex
官网下载地址：https://repo.anaconda.com/archive/Anaconda3-5.2.0-Windows-x86_64.exe
下面代码的开发环境为jupyter notebook，使用在jupyter notebook中的截图表示运行结果。

0.打开jupyter

在桌面新建文件夹命名为基于TfidfVectorizer的垃圾分类，如下图所示:

image.png

打开 基于TfidfVectorizer的垃圾邮件分类文件夹，在按住Shift键的情况下，点击鼠标右键，出现如下图所示。
选择 在此处打开PowerShell窗口，之后会在此路径下打开PowerShell。

image.png

在PowerShell中输入命令并运行： jupyter notebook

image.png

PowerShell运行命令后，会自动打开网页，点击如下图所示网页中的按钮：

image.png

spam中文叫做 垃圾邮件
代码文件重命名为 spamMailTest，重命名按钮位置如下图所示：

image.png

1.数据下载

数据文件下载链接: https://pan.baidu.com/s/1kqOFq8Ou_2D3fIKp0l62qQ 提取码: eu5x
压缩文件trec06c.zip当中含有64000多个包含邮件内容的文本文件。
使用软件Winrar无法解压，使用软件7zip或Bandizip可以解压，需要3分钟左右。
选择解压到trec06c，如下图所示：

最低0.47元/天解锁文章

xiaosakun

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
4
评论
基于jieba、TfidfVectorizer、LogisticRegression的垃圾邮件分类

2018年9月27日笔记jieba中文叫做结巴，是一款中文分词工具，官方文档链接：https://github.com/fxsjy/jiebaTfidfVectorizer中文叫做___ 词频逆文档频率向量化模型，是用来文章内容向量化的工具，官方文档链接：http://sklearn.apachecn.org/cn/0.19.0/modules/gen...
复制链接

扫一扫