2018年9月27日笔记
jieba中文叫做结巴,是一款中文分词工具,官方文档链接:https://github.com/fxsjy/jieba
TfidfVectorizer中文叫做___ 词频逆文档频率向量化模型,是用来文章内容向量化的工具,官方文档链接:http://sklearn.apachecn.org/cn/0.19.0/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html
LogisticRegression中文叫做逻辑回归模型___,是一种基础、常用的分类方法。
建议读者安装anaconda,这个集成开发环境自带了很多包。
到2018年9月27日仍为最新版本的anaconda下载链接: https://pan.baidu.com/s/1pbzVbr1ZJ-iQqJzy1wKs0A 密码: g6ex
官网下载地址:https://repo.anaconda.com/archive/Anaconda3-5.2.0-Windows-x86_64.exe
下面代码的开发环境为jupyter notebook,使用在jupyter notebook中的截图表示运行结果。
0.打开jupyter
在桌面新建文件夹命名为基于TfidfVectorizer的垃圾分类,如下图所示:
打开 基于TfidfVectorizer的垃圾邮件分类文件夹,在按住Shift键的情况下,点击鼠标右键,出现如下图所示。
选择 在此处打开PowerShell窗口,之后会在此路径下打开PowerShell。
在PowerShell中输入命令并运行: jupyter notebook
PowerShell运行命令后,会自动打开网页,点击如下图所示网页中的按钮:
spam中文叫做 垃圾邮件
代码文件重命名为 spamMailTest,重命名按钮位置如下图所示:
1.数据下载
数据文件下载链接: https://pan.baidu.com/s/1kqOFq8Ou_2D3fIKp0l62qQ 提取码: eu5x
压缩文件trec06c.zip当中含有64000多个包含邮件内容的文本文件。
使用软件Winrar无法解压,使用软件7zip或Bandizip可以解压,需要3分钟左右。
选择解压到trec06c,如下图所示: