机器学习 第七章

一、贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法。决策论中将期望损失叫做风险。假设有N种可能的分类类别,即y=\left \{ c_1,c_2,\cdots ,c_N \right \}\lambda _{ij}是将一个真实标记误分类所产生的损失。基于后验概率可获得将样本x分类为c_i所产生的期望损失,即在样本x上的条件风险。需要寻找一个判定准则使得总体风险最小化。对于每个条件样本,若h能最小化条件风险,那么也可以最小化总体风险。所以诞生了贝叶斯判定准则:为最小化总体风险,只需在每个样本上选择那个能使条件风险最小的类别标记,即:

 h^*叫做贝叶斯最优分类器,对应的总体风险R(h^*)叫做贝叶斯风险。

想要使用贝叶斯准则来最小化决策风险,需要先获得后验概率。机器学习所要实现的是基于有限的训练样本集尽可能的准确估计出后验概率。其中有“判别式模型”和“生成式模型”两种策略,前面所讲的决策树、BP神经网络、支持向量机都属于判别式模型。对于生成式模型,基于贝叶斯定理,P(c|x)的表达式为:

二、极大似然估计

估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式,在基于训练样本对概率分布的参数进行估计。概率模型训练过程就是参数估计过程,对于参数估计有两种不同的解决方案:频率主义学派认为参数虽然未知,但却是固定存在的客观值,因此可以通过优化似然函数等准则来确定参数值。贝叶斯学派认为参数是未观察到的随机变量,其本身也可有分布,因此可假定参数服从一个先验分布,然后基于观察到的数据来计算参数的后验分布。

极大似然估计(MLE)来自于频率主义学派。令D_c表示训练集D中第c类样本组成的集合,假设这些样本是独立同分布的,那么参数\theta _c对于数据集D_c的似然是P(D_c|\theta _c)=\prod_{x\in D_c}P(x|\theta _c)。对\theta _c进行最大似然估计,就是寻找能最大化似然的参数\hat{\theta }_c

通常使用对数似然来替代公式中的累乘,以避免出现溢出。在连续属性情形下,假设概率密度函数p(x|c)\sim N(\mu _c,\sigma ^2_c),那么可得两个参数的极大似然估计为:

其估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布,真实任务中仅凭猜测来假设概率分布形式,会产生误导性结果。

三、朴素贝叶斯分类器

 朴素贝叶斯分类器避开了前面的类条件概率难以从有限的训练样本直接估计得到,其采用了属性条件独立性假设:对已知类别,假设所有属性相对独立。朴素贝叶斯分类器的表达式为:

 其训练过程就是基于训练集D来估计类先验概率P(c),并为每个属性估计条件概率。

为了避免其他属性携带的信息被训练集中未出现的属性值抹去,在估计概率值时通常要进行平滑,常使用拉普拉斯修正。

四、半朴素贝叶斯分类器

朴素贝叶斯分类器采用的假设在现实生活中很难成立,因此引入了半朴素贝叶斯分类器。它的基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需要进行联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。

其中独依赖估计(ODE)是半朴素贝叶斯分类器最常用的一种策略,其就是假设每个属性在类别之外最多仅依赖一个其他属性,即

 pa_i为属性x_i所依赖的属性,叫做x_i的父属性。不同的确定每个属性父属性的方法会产生不同的独依赖分类器。最直接的方法是假设所有属性都依赖与同一属性,叫做超父。然后通过交叉验证等模型选择方法来确实超父属性,叫做SPODE方法。TAN是在最大带权生成树算法的基础上将属性间的依赖关系转化为如下图所示的树形结构。

 AODE是一种基于集成学习机制、更为强大的独依赖分类器。其会将每个属性来作为超父构建SPODE,然后将那些具有足够数据支撑的SPODE集成起来作为最终结果,即下式:

 五、贝叶斯网

贝叶斯网也叫信念网,借助有向无环图(DAG)来刻画属性间的依赖关系,并使用条件概率表(CPT)来描述属性的联合概率分布。

1.结构

贝叶斯网结构有效地表达了属性间的条件独立性。给定父结点集,贝叶斯网假设每个属性与它的非后裔属性独立,那么贝叶斯网会将属性的联合概率分布定义为:

贝叶斯网中三个典型的依赖关系为同父结构、V型结构和顺序结构,如下图所示:

V型结构也叫冲撞结构,给定子节点x_4的取值,x_1x_2必不独立;若x_4的取值未知,那么x_1x_2相互独立。这种独立性叫做边际独立性。

道德图是通过(1)找出有向图中所有V型结构,在V型结构的两个父节点间加上一条无向边(2)将所有有向边改为无向边 步骤产生的无向图,令父节点相连的过程叫做道德化。基于道德图可以直观、迅速的找到变量间的条件独立性。

2.学习

贝叶斯网学习的首要任务是根据训练数据集找出结构最恰当的贝叶斯网。可以通过评分搜索求解。常用的评分函数通常基于信息论准则,其将学习看作一个数据压缩任务,学习的目标是找到一个能以最短编码长度描述训练数据的模型。这个时候编码的长度就包括了描述模型自身所需的字节长度和使用该模型描述数据所需的字节长度。需要选择综合编码长度最短的贝叶斯网,就是最小描述长度(MDL)准则。

给定训练集D,贝叶斯网B在D上的评分函数为s(B|D)=f(\theta )|B|-LL(B|D),|B|是贝叶斯网参数个数,f(θ)描述给个参数θ所需的字节数,LL(B|D)是贝叶斯网B的对数似然。当f(θ)=1时,得到AIC评分函数;当f(\theta )=\frac{1}{2}logm时,得到BIC评分函数。

 3.推断

贝叶斯网训练好之后就能用来回答查询",即通过一些属性变量的观测值来推测其他属性变量的取值。通过已知变量观测值来推测待查询变量的过程叫做推断,已知变量观测值叫做证据。

贝叶斯网的近似推断常使用吉布斯采样来完成,其为一种随机采样方法。吉布斯采样是在贝叶斯网所有的变量的联合状态空间与证据E=e一致的子空间中进行随机漫步,每一步仅依赖于前一步的状态,这是一个马尔可夫链。

六、EM算法

未观测变量的学名是隐变量,EM算法是常用估计参数隐变量的工具,是一种迭代的方法。基本思想为若参数已知,则可根据训练数据推断出最优隐变量Z的值(E步);反之若Z的值已知,则可方便的对参数做极大似然估计(M步)。

EM算法使用两个步骤交替计算:第一步是期望(E)步,利用当前估计的参数值来计算对数似然的期望值;第二步是最大化(M)步,寻找能使E步产生的似然期望最大化的参数值。新得到的参数值重新应用于E步,直到收敛到局部最优解。

总结

本章主要讲解了贝叶斯决策论基础、朴素贝叶斯分类器以及贝叶斯网络等核心概念。贝叶斯分类是一类基于贝叶斯定理的统计分类方法,其核心思想是利用先验知识和观测到的数据(即证据)来估计后验概率,从而做出最优的分类决策。

  • 13
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值