贝叶斯分类器学习笔记


本文参考机器学习西瓜书148~163,原文讲得有很多,比较详细。我这里只是提取了其中的一部分。如果有兴趣,可以去看看书中的详细过程。

贝叶斯决策论

什么是贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法,对于分类任务来说,在所有相关概率都已知道的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来标记,贝叶斯决策的基本理论依据就是贝叶斯公式:: P(A|B)=P(B|A)*P(A)/P(B)

贝叶斯决策论的一般过程

1)估计先验概率:①根据实际情况做经验估计;②根据样本分布的频率估计概率。
2)计算类条件概率密度:①参数估计:类条件概率分布类型已知,参数未知,通过训练样本来估计(最大似然法、Bayes估计);②非参数估计:不判断类条件概率分布类型,直接根据训练样本来估计(Parzen窗、kn-近邻法)。
3)计算后验概率。
4)若进行最小错误率决策,根据后验概率即可作出决策;若进行最小风险决策,按照式
R(ai | X) = ∑cj=1 λ(ai,wj) * P(wj | X) = ∑cj=1 λij * P(wj | X) 进行计算即可。

朴素贝叶斯分类器

朴素贝叶斯分类器公式

基于贝叶斯公式P(A|B)=P(B|A)*P(A)/P(B)来估计后验概率的主要困难在于:类条件概率P(A|B)是所有属性的联合概率,难以从有限的训练样本直接估计得到,为了避免这个障碍,朴素贝叶斯分类器采用了“属性条件独立假设”:对已知的类别,假设所有属性相互独立,换言之,假设每个属性独立的对分类结果发生影响,基于属性条件独立性假设,我们有公式:
在这里插入图片描述

朴素贝叶斯分类器的优缺点

优点:
1) 算法逻辑简单,易于实现(算法思路很简单,只要使用贝叶斯公式转化医学即可!)
2)分类过程中时空开销小(假设特征相互独立,只会涉及到二维存储)
缺点:
理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。

半朴素贝叶斯分类器

半朴素贝叶斯分类器公式

为了降低贝叶斯公式中估计后验概率的困难,朴素贝叶斯分类器采用了属性条件独立性假设,但是现实任务中往往很难成立,于是,为了对属性条件独立性假设做出一定程度的放松,由此产生了“半朴素贝叶斯分类器”的学习方法。
半朴素贝叶斯分类器的基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需要进行完全联合概率计算,又不至于彻底忽略比较强的属性依赖关系。“独依赖估计”(简称ODE)是半朴素贝叶斯分类器最常用的一种策略。顾名思义,所谓“独依赖”就是假设每个属性在类别之外最多仅依赖于一个其他属性,即:
在这里插入图片描述

分类器属性的依赖关系

于是,问题的关键就转化为如何确定每个属性的父属性,不同的做法会产生不同的独依赖分类器。最直接的做法是假设所有属性都依赖于统一属性,称为“超父”,然后通过交叉验证等模型选择方法来确定超父属性。即为SPODE。
在这里插入图片描述
如图是朴素贝叶斯和两种半朴素贝叶斯分类器所考虑的属性依赖关系。
关于TAN则是在最大带权生成树算法的基础上,通过以下步骤将属性的依赖关系约简为树形结构
1)计算任意两个属性之间的条件互信息
在这里插入图片描述
2)以属性为结点构建完全图
3)构建此完全图的最大带权生成树,挑选根变量,将边置为有向
4)加入类别结点y增加从y到每个属性的有向边

贝叶斯网

贝叶斯网简介

贝叶斯网也称作“信念网”,它借助有向无环图(简称DAG)
来刻画属性之间的依赖关系,并使用条件概率表(简称CPT)来描述属性的联合概率分布。
具体来说,一个贝叶斯网B由结构G和参数Θ\ThetaΘ两部分构成,G是一个有向无环图,每个结点对应于一个属性,若两个属性有直接依赖关系,则有一条边连接,Θ\ThetaΘ则定量描述这种依赖关系。

贝叶斯网的学习

若网络的结构以知,即属性间的依赖关系已知,则贝叶斯网的的学习过程相对简单,只需要对训练样本“计数”,估计出每个结点的条件概率即可。但是在现实应用中往往我们并不知道网络的结构,于是,贝叶斯网学习的首要任务就是根据训练数据集来找出结构最“恰当”的贝叶斯网络。“评分搜素”是求解这一问题的常用方法。

贝叶斯网的推断

贝叶斯网训练好之后就能用来回答“查询”,即通过一些属性变量的观测值来推测其他属性变量的取值。

EM算法

在这里插入图片描述
这图片是直接拍照的,因为公式我打不出来
简要来说,EM算法使用两个步骤进行交替计算:第一步是期望(E)步,利用当前估计的参数值来计算对数似然的期望值;第二步是最大化(M)步,寻找能使E步产生的似然期望最大化的参数值。然后新得到的参数值重新被用于E步…直到收敛到局部最优解。
事实上,隐变量估计问题也可以通过梯度下降等优化算法求解,但由于求和的项数随着隐变量的数目以指数级上升,会给梯度计算带来麻烦;而EM算法则可以看作一种非梯度优化的一种方法。
如有错误,请批评指正。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值