使用朴素贝叶斯过滤垃圾邮件

最新推荐文章于 2023-09-22 17:25:49 发布

张小莹说她很忙

最新推荐文章于 2023-09-22 17:25:49 发布

阅读量1.7k

点赞数

分类专栏：监督学习文章标签：垃圾邮件算法

本文链接：https://blog.csdn.net/zyy848877920/article/details/79007927

版权

使用朴素贝叶斯解决一些现实生活中的问题时，需要先从文本内容得到字符串列表，然后生成词向量。下面这个例子中，将了解朴素贝叶斯的一个著名的应用：电子邮件垃圾过滤。

（1）收集数据：提供文本文件
（2）准备数据：将文本文件解析成词条向量
（3）分析数据：检查词条确保解析的正确性
（4）训练算法：使用我们之前建立的trainNB()函数
（5）测试数据：使用classifyNB()，并且构建一个新的测试函数来计算文档集的错误率。
（6）使用算法：构建一个完整的程序对一组文档进行分类，将错误的文档输出到屏幕上。

一、准备数据：切分文本
如何从文本文档中构建自己的词列表？
1、对于一个文本字符串，可以使用python的string.split()方法将其划分。


>>> mySent='This book is the best book on Python or M.L. I have ever laid eyes upon.'
>>> mySent.split()
['This', 'book', 'is', 'the', 'best', 'book', 'on', 'Python', 'or', 'M.L.', 'I', 'have', 'ever', 'laid',

最低0.47元/天解锁文章

张小莹说她很忙

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用朴素贝叶斯过滤垃圾邮件

使用朴素贝叶斯解决一些现实生活中的问题时，需要先从文本内容得到字符串列表，然后生成词向量。下面这个例子中，将了解朴素贝叶斯的一个著名的应用：电子邮件垃圾过滤。（1）收集数据：提供文本文件（2）准备数据：将文本文件解析成词条向量（3）分析数据：检查词条确保解析的正确性（4）训练算法：使用我们之前建立的trainNB()函数（5）测试数据：使用classify
复制链接

扫一扫