数据挖掘十大算法（一）------朴素贝叶斯算法

最新推荐文章于 2023-12-23 16:11:52 发布

ws_Ando

最新推荐文章于 2023-12-23 16:11:52 发布

阅读量1.2k

点赞数 2

分类专栏：算法分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ws_Ando/article/details/87599939

版权

算法分析专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、朴素贝叶斯

二、决策树

三、逻辑（Logistic）回归

四、线性回归

五、KNN算法（最邻近算法）

六、SVM

七：聚类算法

八：Apriori算法（频繁项挖掘算法）

九：EM（最大期望算法）

十：分类回归算法

朴素贝叶斯算法

一、贝叶斯算法归属于分类算法

贝叶斯分类是一类算法的总称，这类算法均已贝叶斯定理为基础。故统称为贝叶斯分类。

朴素贝叶斯分类是贝叶斯分类中最简单、最常见的一种分类方法。

分类的定义：已知集合和，确定映射规则y = f(x)，使得任意有且仅有一个,使得成立，其中C为类别集合，y1,y2...为类别（归属于哪一类），I 为特征集合，x1,x2为待分类项，f 为分类器。总结：将待分类的x1,x2 通过 f 分类器，将他们归属到y1，y2的类别中。

分类算法的核心就是构造分类器 f ，可以使得很好的分类，错误率低。

二、朴素贝叶斯算法

①贝叶斯公式：

转化一下

具体来说就是统计每一种可能的概率，概率越大，所被划分为该类别越大。

用个例题来说明

由4个特征，来推断该女子是否嫁给该男生

实质比较 P(嫁|不帅、性格不好、矮、不上进) 和 P(不嫁|不帅、性格不好、矮、不上进) 的概率，最终选择嫁与不嫁的答案

运用贝叶斯公式（不会求就百度）求得概率，P(不嫁|不帅、性格不好、矮、不上进) > P(嫁|不帅、性格不好、矮、不上进)

所以该女子选择不嫁

三、朴素贝叶斯的优缺点

优点：①、算法逻辑简单、易于实现。（使用贝叶斯算法公式即可）

②、分类过程时间、空间开销小（若特征相互独立，则只涉及二维存储。）

缺点：朴素贝叶斯算法更适合在各属性之间相互独立的情况中使用，但在实际过程中往往是不成立的。属性之间相关性越大，分类误差也就越大。

四、朴素贝叶斯实战

朴素贝叶斯实际应用场景

文本分类
垃圾邮件过滤
病人分类
拼写检查
......

python中的sklearn库有3种不同类型的朴素贝叶斯：

高斯分布型：用于分类（classification）问题，假定属性/特征服从正态分布。
多项式型：用于离散值模型。比如文本分类问题里面我们提到过，我们不光看词语是否在文本中出现，也得看出现次数。如果总词数为n，出现词数为m的话，有点像掷骰子n次出现m次这个词的场景。
伯努利型：要求特征是离散的，且为布尔类型，即true和false，或者1和0，最后得到的特征只有0(没出现)和1(出现过）

后期有需要再补充

参考博客：https://blog.csdn.net/fisherming/article/details/79509025

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘十大算法（一）------朴素贝叶斯算法

一、朴素贝叶斯二、决策树三、逻辑（Logistic）回归四、线性回归五、KNN算法（最邻近算法）六、SVM七：聚类算法八：Apriori算法（频繁项挖掘算法）九：EM（最大期望算法）十：分类回归算法朴素贝叶斯算法一、贝叶斯算法归属于分类算法贝叶斯分类是一类算法的总称，这类算法均已贝叶斯定理为基础。故统称为贝叶斯分类。朴素贝叶斯分类是贝叶斯分类中最...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。