机器学习02：朴素贝叶斯法

云名@

已于 2024-02-22 17:20:40 修改

阅读量452

点赞数

文章标签：大数据

于 2022-07-09 17:15:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44744736/article/details/125695345

版权

数据分析师面试中关于朴素贝叶斯方法的理论涉及较多，故此对李航老师的《统计学习方法》中关于朴素贝叶斯的理论进行总结。

一、定义

朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。

二、基本方法

设P(X,Y)是n维随机向量X和K维随机向量Y的联合概率分布。训练数据集

$T=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}$

由P(X,Y)独立同分布产生。

朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y)。具体地，学习以下先验概率分布及条件概率分布。先验概率分布 $P(Y=c_k),k=1,2,...,K$ ；条件概率分布 $P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=c_k) k=1,2,...K$

于是学习到联合概率分布P(X,Y)。

朴素贝叶斯法对条件概率分布做了条件独立性假设：

$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=c_k) =\coprod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_k)$

朴素贝叶斯实际上学习到生成数据的机制，所以属于生成式模型。条件独立性假设等于是说用于分类的特征在类确定的条件下都是条件独立的。

朴素贝叶斯法分类时，对给定的输入x，通过学习到的模型计算后验概率分布 $P(Y=c_k|X=x)$ ，将后验概率最大的类作为x的类输出。后验概率计算根据贝叶斯定理进行：

$P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_{k}P(X=x|Y=c_k)P(Y=c_k)}$

根据条件独立性假设有

$P(Y=c_k|X=x)=\frac{P(Y=c_k)\coprod_{j}P(X^{(j)}=x^{(j)})|Y=c_k)}{\sum_{k}P(Y=c_k)\coprod_{j}P(X^{(j)}=x^{(j)})|Y=c_k)}$

注意到上式中分母对所有 $c_k$ 都是相同的，所以，

$y=argmaxP(Y=c_k)\coprod_{j}P(X^{(j)}=x^{(j)})|Y=c_k)$

三、求解方法

朴素贝叶斯法将实例分到后验概率最大的类中。这等价于期望风险最小化。可以通过给定0-1损失函数进行验证。

$L(Y,f(X))=1\: if \:Y\neq f(X)\: else\: 0$

朴素贝叶斯算法通过极大似然估计估计 $P(Y=c_k)$ 和 $P(X^{(j)}=x^{(j)})|Y=c_k)$

可以得到先验概率 $P(Y=c_k)$ 的极大似然估计是

$P(Y=c_k)=\frac{\sum_{i=1}^{N}I(y_i=c_k)}{N},\:k=1,2,...,K$

设第j个特征 $x^(j)$ 可能取值的集合为 $\{a_{j1},a_{j2},...,a{js_j}\}$ ，条件概率 $P(X^{(j)}=a_{jl}|Y=c_k)$ 的极大似然估计是

$P(X^(j)=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^{N}I(x^{(j)_i=a_{jl},y_i=c_k})}{\sum_{i=1}^{n}i(y_i=c_k)}$

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习02：朴素贝叶斯法

朴素贝叶斯
复制链接

扫一扫

云名@ CSDN认证博客专家 CSDN认证企业博客

码龄5年

13: 原创

117万+: 周排名

11万+: 总排名

1万+: 访问

: 等级

234: 积分

50: 粉丝

103: 获赞

8: 评论

104: 收藏

私信

关注

热门文章

最新评论

SQL08：找出恶意取消用户
CSDN-Ada助手: 恭喜您发布了第12篇博客！标题“SQL08：找出恶意取消用户”看起来非常有趣。您的内容总是深入浅出，让读者能够轻松理解并学到新知识。接下来，我建议您可以尝试探讨一些实际案例，或者分享一些实用的技巧与经验，这样可以进一步丰富您的博客内容。期待您更多精彩的文章！继续加油！。
SQL09：有效值追溯
CSDN-Ada助手: 恭喜您写了第13篇博客！看到标题“SQL09：有效值追溯”让我对内容充满了期待。希望您可以继续保持创作的热情和努力，不断提升自己的写作水平。下一步，建议可以尝试深入探讨SQL中的高级技术或者结合实际案例进行分析，这样可以让读者更加深入地了解相关知识。期待您的下一篇作品！愿您写作越来越出色！
SQL05：计算相互关注的用户
CSDN-Ada助手: 恭喜用户写出第9篇博客！阅读了您的文章，对于SQL计算相互关注的用户感到非常有趣和实用。希望您能继续保持创作的热情和努力，不断分享更多有价值的内容给读者。或许下一步可以探讨如何优化SQL查询性能，或者分享一些SQL在大数据处理中的应用案例，相信会对读者有很大的帮助。期待您的下一篇作品！
SQL06：补全日期做求和计算
CSDN-Ada助手: 恭喜您写了第10篇博客！标题“SQL：补全日期做求和计算”听起来很有深度，对SQL感兴趣的读者一定会受益匪浅。希望您能继续坚持创作，分享更多SQL方面的知识和经验。或许下一篇博客可以探讨一些高级的SQL查询技巧或者与其他编程语言的结合运用，这样能够更加丰富读者的学习体验。期待您的下一篇作品！
SQL04：自定义业务周
CSDN-Ada助手: 恭喜您写了这么精彩的博客！自定义业务周这个主题确实很有深度，我觉得您可以继续挖掘这个主题，比如可以分享一些具体的案例或者实践经验，让读者更加深入地理解和应用。希望您能继续保持创作的热情，期待您更多的精彩内容！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。