斯坦福大学公开课机器学习课程（Andrew Ng）六朴素贝叶斯算法

最新推荐文章于 2024-08-14 22:32:50 发布

一路前行1

最新推荐文章于 2024-08-14 22:32:50 发布

阅读量3.1k

点赞数 3

分类专栏： machine learning Machine Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weiyongle1996/article/details/76165715

版权

课程概要：

1.朴素贝叶斯多项式事件模型

2.神经网络

3.支持向量机

一、朴素贝叶斯多项式事件模型

在上一篇中提到过的朴素贝叶斯中，主要是二元值，即以0,1标示邮件中的词是否在词典中出现。这个最基本的NB模型也被称为多元伯努利事件模型（NB-MBEN），而这一篇要讲的为多项式事件模型（NB-MEN）。

NB-MBEN与NB-MEN的区别

首先，NB-MEM 改变了特征向量的表示方法。在 NB-MBEM 中，特征向量的每个分量代表词典中该 index 上的词语是否在文本中出现过，

其取值范围为{0,1}，特征向量的长度为词典的大小。

而在 NB-MEM 中，特征向量中的每个分量的值是文本中处于该分量的位置的词语在词典中的索引，其取值范围是{1,2,…,|V|},|V|是词典的大小，

特征向量的长度为相应样例文本中词语的数目。
举例来说，在NB-MBEM 中，一篇文档的特征向量可能如下所示：

其在 NB-MEM 中的向量表示则如下所示：

在 NB-MEM 中，假设文本的生成过程如下：
确定文本的类别，比如是否为垃圾文本、是财经类还是教育类等；

遍历文本的各个位置，以相同的多项式分布生成各个词语，生成词语时相互独立。

由上面的生成过程可知，NB-MEM 假设文本类别服从多项式分布或伯努利
布，而词典中所有的词语服从多项式分布。生成过程还可如下解释，即先在类
所服从的多项式分布中选取类别，然后遍历整个文本，在词语所服从的多项式
布中选取词语，放到文本中相应的位置上。
于是，NB-MEM 的参数如下所示：

上述式子含义分别为垃圾邮件频率，当为垃圾邮件时在词典中k位置的词出现频率，和当为非垃圾邮件时在词典中k位置的词出现频率。（而在NB-MBEN中标示的是当为垃圾邮件或非垃圾邮件时词典中某词是否出现的频率）

所以参数在训练集上的极大似然估计为：

极大化该函数，得到各参数的极大似然估计：

上面第一个式子，分子的意思是，对所有标签为1的邮件求和，之后对垃圾邮件中的词k（词典中第k个位置的词）求和，所以分子实际上就是训练集中所有垃圾邮件中词k出现的次数。分母是训练集中所有垃圾邮件的长度。比值的含义就是所有垃圾邮件中，词

最低0.47元/天解锁文章

关注

3
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。