机器学习笔记二

贝叶斯分类:贝叶斯判定准则:为最小化总体风险,只需要在每个样本上选择哪个能使条件风险R(c|x)最小的类别标记 最小化分类错误率的贝叶斯最优分类器为:即对每个样本x,选择能使后验概率P(c|x)最大的类别标记

朴素贝叶斯分类器:采用属性条件独立性假设:对已知类别,假设所有属性相互独立。换言之,假设每个属性独立地对分类结果发生影响。 为避免其他属性携带的信息被训练中未出现的属性值“抹去”,在估计概率值通常进行“平滑”,常用“拉普拉斯修正”。避免因训练样本不充分而导致的概率估值为零的问题,并在训练集变大时,修正过程所引入的先验概率的影响也逐渐变得可忽略,使得估值渐趋向于实际概率值。
半朴素贝叶斯分类器:适当考虑一部分属性间的相互依赖信息,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。
“独依赖估计”是半朴素贝叶斯分类器最常用的策略,“独依赖”假设每个属性在类别之处最多仅依赖于一个其他属性。最直接的做法是假设所有属性都依赖于同一个属性,成为“超父”,然后通过交叉验证等模型选择方式确定超父属性,成为SPODE方法。TAN在最大带权生成树算法的基础上,通过将属性间依赖关系简为树形结构,TAn实际上仅保留了强属性之间的依赖关系。AODE是一种基于集成学习机制、更为强大的独依赖分类器贝叶斯网路:“信念网”借助有向无环图(DAG)来刻画属性之间的依赖关系,并使用条件概率表(CPT)来描述属性的联合概率分布 “评分搜索”是根据训练数据集找出结构最“恰当”的贝叶斯网路,先定义一个评分函数,以此来评估贝叶斯与训练数据的契合程度,然后基于这个评分函数寻找结构最优的贝叶斯网路 “最小描述长度”准则:选择那个综合编码长度(包括描述网路和编码数据)最短的贝叶斯网“马尔科夫链”:每一步仅依赖于前一步的状态,在一定条件下,无论从什么初始状态下开始,马尔科夫链第t步的状态分布在t-&时必收敛于平稳分布。EM算法:期望最大化算法,一种常用的估计参数隐变量的利器,是一种迭代式方法 未观测变量的学名“隐变量”阅读:朴素贝叶斯分类器在信息检索领域尤为常用,文本分类

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值