机器学习算法四：贝叶斯分类器

～～～霞

于 2021-07-26 15:47:31 发布

阅读量511

点赞数

文章标签： python 机器学习朴素贝叶斯算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhx111111111/article/details/119110349

版权

贝叶斯分类器:基于概率和误判损失来选择最优类别标记；

计算在样本上能使条件分险R（c|x）最小的类别标记，h*为贝叶斯最优分类器；

（1）概率：贝叶斯分类器是基于联合分布概率计算的一种生成式模型，其计算公式；

其中c为标签类别，x为特征；p(c)为类的先验概率；p(x|c)为样本x相对于类标记c的类条件概率，即“似然”；p(x)是用于归一化的证据因子，与类别标记无关；

☆先验概率：是指根据以往经验和分析得到的概率。

☆后验概率：事情已经发生，要求这件事情发生的原因是由某个因素引起的可能性的大小。

（2）误判损失：基于后验概率获得样本x分类为ci所产生的期望损失；其计算公式：

朴素贝叶斯分类器：

针对贝叶斯分类器“无法从有限的训练样本数据属性值估计所有属性的联合概率”问题，提出了“属性条件独立假设”；其公式为：

其中d为属性数目， $x_{i}$ 为x在第i个属性上的取值；

由于不同属性的归一化的证据因子相同，因此可以贝叶斯判断准则有

针对不同属性,即离散属性和连续属性的计算方法：

★离散属性：

先验概率：其中Dc为训练集D的第c类样本组成的集合；

条件概率：其中 $D_{c,x_{i}}$ 为Dc中第i个属性上取值为xi的样本组合的集合；

★连续属性：考虑概率密度函数，假定，其中分别是第C类样本在第i个属性值上取值的均值和方差；

◆计算实例：

基于西瓜数据集：

计算预测下表类别：

计算过程：

先验概率p(c)：

P(好瓜=是)=8/17； p(好瓜=否)=9/17

不同属性值下的条件概率 $p(x_{i}|c)$ ：

最终类别概率计算：

由于类别中存在某属性出现次数为0的情况，为了避免其他属性信息在训练过程中被未出现的属性值抹掉的问题，对估计概率值进行“平滑操作”，采用“拉普拉斯修正”。公式如下：

●半朴素贝叶斯分类器

基本思想：考虑一部分属性间存在相互依赖信息；

独依赖：假设每个属性在类别之外最多依赖一个其他属性；则计算其后验概率公式为：

其中 $pa_{i}$ 属性 $x_{i}$ 所依赖的父属性，分别计算不同类别和父属性条件下的条件概率；

关键问题：如何确定依赖父属性；

SPOED(Super-Parent ODE):假设所有属性都依赖于同一个属性，然后通过交叉验证等模型选择方法确定超父属性；

TAN：通过最大带权生成树算法，构建属性间依赖关系；其首先计算两属性之间的条件互信息，并将其设置为以属性为结点的结点间权重，并构建最大带权生成树，挑选根变量，将边置为有向并增加类别结点到各属性间的边。

AODE（averagedone-dependent estimator）是一种基于集成学习机制、更为强大的度依赖分类器。AODE尝试将每个属性作为超父来构建SPODE，然后将那些具有足够训练数据支持的SPODE集成起来作为最终结果；

Sklearn框架下的代码实现：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法四：贝叶斯分类器

贝叶斯分类器:基于概率和误判损失来选择最优类别标记；计算在样本上能使条件分险R（c|x）最小的类别标记，h*为最优分类器；概率：贝叶斯分类器是基于联合分布概率计算的一种生成式模型，其计算公式；其中c为标签类别，x为特征；p(c)为类的先验概率；p(x|c)为样本x相对于类标记c的类条件概率，即“似然”；p(x)是用于归一化的证据因子，与类别标记无关；☆先验概率：是指根据以往经验和分析得到的概率。☆后验概率：事情已经发生，要求这件事情发生的原因是由某个因素引起的可能性的大小。误判损..
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。