机器学习算法四:贝叶斯分类器

  1. 贝叶斯分类器:基于概率和误判损失来选择最优类别标记;

计算在样本上能使条件分险R(c|x)最小的类别标记,h*为贝叶斯最优分类器;

(1)概率:贝叶斯分类器是基于联合分布概率计算的一种生成式模型,其计算公式;

其中c为标签类别,x为特征;p(c)为类的先验概率;p(x|c)为样本x相对于类标记c的类条件概率,即“似然”;p(x)是用于归一化的证据因子,与类别标记无关;

☆先验概率:是指根据以往经验和分析得到的概率。

☆后验概率:事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小。

(2)误判损失:基于后验概率获得样本x分类为ci所产生的期望损失;其计算公式:

  1. 朴素贝叶斯分类器:

针对贝叶斯分类器“法从有限的训练样本数据属性值估计所有属性的联合概率”问题,提出了“属性条件独立假设”;其公式为:

其中d为属性数目,x_{i}为x在第i个属性上的取值;

由于不同属性的归一化的证据因子相同,因此可以贝叶斯判断准则有

针对不同属性,即离散属性连续属性的计算方法:

离散属性

先验概率:其中Dc为训练集D的第c类样本组成的集合;

条件概率:其中D_{c,x_{i}}为Dc中第i个属性上取值为xi的样本组合的集合;

连续属性:考虑概率密度函数,假定 ,其中分别是第C类样本在第i个属性值上取值的均值和方差;

◆计算实例:

基于西瓜数据集:

计算预测下表类别:

计算过程:

先验概率p(c):

P(好瓜=是)=8/17;   p(好瓜=否)=9/17

不同属性值下的条件概率p(x_{i}|c)

 最终类别概率计算:

 由于类别中存在某属性出现次数为0的情况,为了避免其他属性信息在训练过程中被未出现的属性值抹掉的问题,对估计概率值进行“平滑操作”,采用“拉普拉斯修正”。公式如下:

●半朴素贝叶斯分类器

基本思想:考虑一部分属性间存在相互依赖信息;

独依赖:假设每个属性在类别之外最多依赖一个其他属性;则计算其后验概率公式为:

其中pa_{i}属性x_{i}所依赖的父属性,分别计算不同类别和父属性条件下的条件概率;

关键问题:如何确定依赖父属性;

SPOED(Super-Parent ODE):假设所有属性都依赖于同一个属性,然后通过交叉验证等模型选择方法确定超父属性;

TAN:通过最大带权生成树算法,构建属性间依赖关系;其首先计算两属性之间的条件互信息 ,并将其设置为以属性为结点的结点间权重,并构建最大带权生成树,挑选根变量,将边置为有向并增加类别结点到各属性间的边。

AODE(averagedone-dependent estimator)是一种基于集成学习机制、更为强大的度依赖分类器。AODE尝试将每个属性作为超父来构建SPODE,然后将那些具有足够训练数据支持的SPODE集成起来作为最终结果;

Sklearn框架下的代码实现:

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值