机器学习第五课----朴素贝叶斯应用于垃圾邮件过滤

最新推荐文章于 2023-11-12 20:08:54 发布

Frank-Shaw

最新推荐文章于 2023-11-12 20:08:54 发布

阅读量801

点赞数

分类专栏：网易机器学习文章标签：机器学习朴素贝叶斯

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/x3886321/article/details/19046661

版权

网易机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

看了视频也看了笔记，写下自己困惑的点以及后来想明白的原因。

（1）朴素贝叶斯的前提假设：在分类问题上，假设各个特征之间出现的概率相互独立。在老师的邮件过滤问题上，如下式所示：

概率相互独立，自然好理解。但我一开始不清楚这个xi的含义。当我将它看成是特征时就好办了，一个邮件看成是X，X由多个word组成，那么每一个不同的word就是其中的特征xi。

（2）通过最大似然估计得出来的参数是用来干嘛的？如何使用？

参数的最大似然估计为：

这个含义是清楚的第一个表示的特征xj出现在垃圾邮件中的比例，第二个表示的是xj出现在正常邮件中的比例。然后，老师就说，对于新的一个邮件，通过贝叶斯公式就可以判断出这个新邮件是否是垃圾邮件。这个说实话，可能是个人理解能力问题，我还真的一时没想清楚为什么。我们都知道，贝叶斯公式为：

那么所谓的使用一大堆贴有标签的邮件来训练所得到的最大似然估计中的各个参数是用来干嘛的？

后来想明白了，新的邮件中有很多word，将它们作为新邮件的特征xi，那实际上通过训练过后，每个p(xi | y=1)都是已经求出来的，就是最大似然估计求出来的参数中的第一项啊。而朴素贝叶斯的假设也正在此时可以派上用场，p(X | y=1)=p(x1 | y=1)p(x2 | y=1)...p(xi | y=1)。原来如此。这样想下去之后也就明白，给出一个新邮件就可以得出判断了。

之前学习过贝叶斯，但基本没有所谓的训练样本的概念，因为基本上这些概率值都是给出来了的，这次算是理解地更加深入一点了。

这是个根本不值一提的小问题，但是没有想清楚之前，它确实困扰着我。写下来无非是加强自身理解罢了。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习第五课----朴素贝叶斯应用于垃圾邮件过滤

看了视频也看了笔记，写下自己困惑的点以及后来想明白的原因。（1）朴素贝叶斯的前提假设：在分类问题上，假设各个特征之间出现的概率相互独立。在老师的邮件过滤问题上，如下式所示：概率相互独立，自然好理解。但我一开始不清楚这个xi的含义。当我将它看成是特征时就好办了，一个邮件看成是X，X由多个word组成，那么每一个不同的word就是其中的特征xi。（2）通过最大似然估计得出来的参数是用来
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。