作者:vicky_siyu 致谢:小龙快跑jly, 巧儿、克力,Esther_or so,雨佳小和尚,老实憨厚的叶子
本文是对贝叶斯分类器(包括朴素贝叶斯分类器,半朴素贝叶斯分类器及贝叶斯网络)算法的演算及案例的详细分析。本文只是在学习后进行了总结并加入了自己的理解,如有不妥之处,还望海涵,也希望大家多多指教,一起学习!
ps.建议先阅读“理解贝叶斯分类器原理及关系 https://blog.csdn.net/weixin_43742744/article/details/85492334 ” 后再阅读本文,会对上述几种贝叶斯分类器有更深入的理解。
一、 朴素贝叶斯分类器
特点:假设输入的变量的特征属性之间具有很强的独立性。
即假设x1,x2,….,xn相互独立。{若AB相互独立,则P(AB)=P(A)P(B)}
通过这个假设,可以把联合分布概率转化为多个类条件概率的乘积。
(以下公式来自SIGAI–机器学习—雷老师)
朴素贝叶斯分类器既可以处理离散数值的分类问题,也能处理连续数值的分类问题。
下面分别结合公式和案例分析如何处理这两类问题。
1)离散型
(PS. 拉普拉斯平滑处理是平滑处理的一种方式。平滑处理是为了避免某一类样本数量为0,导致该样本出现的概率为0。只要有一个概率为0,预测函数将概率连乘后就为0了。为了避免这种情况,我们在分子加上λ,分母加上Kλ,保证所有概率都非零。拉普拉斯平滑是λ=1的情况。)
2)连续型
当样本的特征是连续型的数值时,条件概率的分布通常假设为高斯分布,其朴素贝叶斯被称为高斯朴素贝叶斯。高斯分布又分为一维正态分布和多维正态分布。下面依次介绍两种正态分布。
一维正态分布
为了得到函数,需要求出均值和方差:
求得均值和方差后,我们可以得到某类的不同特征属性的高斯函数。
最大化后验概率正比于似然与先验的乘积,算出似然后,还需计算先验概率。
i. 假设各类出现的概率一样
ii. 仅考虑训练样本数据时
平滑处理后的概率:(λ=1时为拉普拉斯平滑修正)