- 博客(8)
- 收藏
- 关注
原创 第4章 4.6使用朴素贝叶斯过滤垃圾邮件
4.6使用朴素贝叶斯过滤垃圾邮件 其中有一部分函数在上一节的内容中记录过,因为该实例需要使用上节中介绍的某些函数,所以把那些函数拷贝过来了。 添加的新函数:text Parse(),spamTest() 其中spamTest()函数是对叶贝斯垃圾邮件分类器进行自动化处理。过程如下 导入文件夹spam和ham下的文本文件(分别对应正常邮件和垃圾邮件),将文本文件解析为词列表([...
2018-04-13 20:17:34 510
原创 Python中各个函数的用法链接
split函数的使用:点击打开链接正则化模块re的使用:点击打开链接append和extend的区别: append是将内容作为一个对象,整体打包到相应列表中。 extend是将内容作为一个序列,添加到相应列表中。...
2018-04-13 16:27:00 247
原创 第4章 4.5使用Python进行文本分类---4.5.3 测试算法:根据现实情况修改分类器
4.5.3 测试算法:根据现实情况修改分类器4.5.4 准备数据:文档词袋模型 词集模型:将每个词的出现与否作为一个特征。 词袋模型:每个词在文档中出现不止一次,这可能意味着包含该词是否出现在文档中所不能表达的某种信息,记录每个词出现的次数。 相应代码及解释如下:'''函数功能:判断待分类的文本向量,属于哪个类别(0,1)的概率大输入...
2018-04-10 18:47:20 418
原创 第4章 4.5 使用Python进行文本分类---4.5.2从词向量计算概率
4.5.2 训练算法:从词向量计算概率需要注意的地方:(因为这两个问题,一直看不懂该训练算法的思想) 1.本算法的目的是为了计算p(w|ci),并不是为了计算p(ci|w)。 2.p(w|ci)=该词条在该类别中出现次数 / 该类别中所有词条出现的总数目。【针对二分类问题】p(ci|w) = p(w|ci) * p(ci) /...
2018-04-10 17:19:30 1102
原创 第4章 4.5 使用Python进行文本分类---4.5.1 从文本中构建词向量
朴素贝叶斯分类器通常有两种实现方式:基于贝努利模型和基于多项式模型 贝努利模型假设每个特征同等重要,就是只考虑词在文档中是否出现,并不考虑次数。而多项式模型考虑词在文档中出现的次数。 此处使用贝努利模型,则朴素贝叶斯方法进行的两个假设: 1:特征之间相互独立 2:每个特征同等重要4.5.1 准备数据:从文本中构建词向量'...
2018-04-10 16:20:23 1961
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人