贝叶斯分类器
基于概率的分类算法,其核心为贝叶斯定理与类条件概率的计算。
一、贝叶斯决策论
1、贝叶斯最优分类器:对于一个有d个属性N个类别的样本x,当分类x到ci类时,可刻画其风险为:误判损失与实际分类概率的累和。任务即为找到一个分类标准h,使其对样本空间分类的总体风险最小化。
而为了最小化总体风险,只需针对每个单独的样本,最小化其风险即可。所得到的h*称为贝叶斯最优分类器。若以分类错误率为指标,可具体得出贝叶斯分类器形式即为最大化后验概率(已知x,它属于类别c的概率)。这样,给定一个任意样本,我们代入分类器就可以得到其后验概率最大化的分类。而样本对应各种分类后验概率是未知的,需要根据数据集进行学习,即为学习内容。
2、贝叶斯公式:为获得后验概率,有两种方法。一种是直接建立后验概率模型,给定x即给出它属于各个类别的概率,前面的决策树、神经网络、SVM均属于此“判别式模型”。另一种是根据贝叶斯公式,将其转化为类先验P(c)和类条件概率P(x|c)的建模,训练集用以估计两者。(对一个样本的分类而言,分母恒定,故不予考虑)
前者是简单的,直接化为对训练集类别频数的估计,后者直接使用频数估计会出现不少问题(如有很多属性,那么样本空间所有取值将很大,训练集可能无法完全覆盖,这时给出的条件概率恒为0,但这仅仅是没观测到而非出现概率为0的结果)
二、类条件概率计算算法
本节针对类条件概率的计算概述典型算法。
1、极大似然估计法:此时我们预设类条件概率存在某种分布,由待定参数确定。这时就将计算类条件概率的问题转化为参数估计问题(即每个特定的类别c对应一个参数,P(x|c)=P(x|θc),根据给定样本即可通过极大似然法得出。
2、朴素贝叶斯分类器:由于x在属性空间是高维向量,在计算类条件概率遇到的最大困难是不知道各个属性的联合概率分布。朴素贝叶斯分类直接将所有属性视为独立(属性条件独立性假设),这样就可以分别计算各个属性的条件概率(这是容易从训练集获得的,无论属性是连续还是离散)再直接累乘。
为避免出现其他属性携带信息被训练集未出现的属性值抹去(如:训练集中没有出现“色泽=明亮”的好瓜,则无论其他属性如何像一个好瓜,都会被认为是坏瓜),采用平滑化“拉普拉斯修正”,即在表达式上修正属性取值个数的项。
2、半朴素贝叶斯分类器:即放松了属性条件独立性假设,认为属性可能会依赖于其他属性。典型的是独依赖估计ODE,认为一个属性只可能依赖于一个属性(称父属性),若全部取为同一父属性,该属性称“超父”,形成SPODE方法。也可推广其为多属性依赖的情形,即kDE方法,但是数量太多又容易陷入估计高阶联合分布的泥沼,存在之前频数估计的问题,因此常在训练数据非常充分的情况下使用。
三、推断学习与贝叶斯网
本节提出的贝叶斯网是刻画属性相互依赖关系的结构。它的功能为已知某些属性取值,推断出其余属性取值的条件概率(此时类别也被视为一个属性)。学习目标有两点,其一为确定贝叶斯网的结构,或称确定属性独立性关系网,其二为确定各个属性的条件概率表(这通过训练集频数统计是易得的)
1、结构确定:通常是基于信息论准则构建“评分函数”进行优化确定。但是即使确定了评分函数,也难以从所有网络结构中搜索出最优网络(NP难问题),常用策略有贪心法(从 一个已知网络调整)、限制法(如限制为树形结构)。
2、推断:用已知变量取值推测其他变量取值的过程即称之。当然可以在已知所有条件概率分布表的情况下直接推断,但是在网络节点多且复杂的情况下难以精确推断。但可以利用“吉布斯采样法”等算法作近似推断。