机器学习理论基础—贝叶斯分类器

程序小旭

于 2024-04-27 16:07:13 发布

阅读量583

点赞数 12

分类专栏：机器学习文章标签：机器学习人工智能贝叶斯

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46167190/article/details/138241049

版权

机器学习专栏收录该内容

19 篇文章 0 订阅

订阅专栏

本文介绍了贝叶斯决策论在机器学习中的应用，特别是在分类任务中的决策准则。详细讲解了贝叶斯分类器的定义、期望损失计算以及生成式和判别式模型的区别。此外，还探讨了朴素贝叶斯和半朴素贝叶斯分类器，以及它们在处理属性依赖时的方法，如ODE和SPODE。

摘要由CSDN通过智能技术生成

机器学习理论基础—贝叶斯分类器

贝叶斯决策论

概述：贝叶斯决策论是概率框架下实施决策的基本方法，对分类任务来说，在所有相关概率都已知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

定义

以一个多分类任务为例：假设当前有一个N分类问题，即={C1,C2，···CN}

定义一：入ij是将一个真实标记为cj的样本误分类为ci所产生的损失。

定义二：单个样本c的期望损失（条件风险）为:
在这里插入图片描述
其中，P (cj|x)为后验概率

定义三：全部样本构成的总体风险为：单个样本的条件风险的合集
在这里插入图片描述
其中，h为分类器（模型）。显然，分类效果越准确的h，其条件风险和总体风险也越小。

贝叶斯判定准则

贝叶斯判定准则：为最小化总体风险R(h)，只需在每个样本上选择那个能使条件风险R(c|x)最小的类别标记，即
在这里插入图片描述
h*称之为最优分类器 R(h*)称为贝叶斯风险。

具体地，若目标是最小化分类错误率，则误判损失入ij可写为:
在这里插入图片描述
此时单个样本x的期望损失（条件风险）为：

将误判损失带入拆解可以得到以下的形式。

进一步推导即可得到西瓜书中的公式7.5：
在这里插入图片描述
按照贝叶斯准则，最小化分类错误率的贝叶斯最优分类器为：

即对每个样本x，选择后验概率P(ci|x)最大的类别ci作为标记

生成式模型和判别式模型

判别式模型：给定x直接建模P(c|x)来预测c（本章学习的贝叶斯分类器）
生成式模型：先对联合概率P(x,c)建模，然后再由此推导得出P(c|x)：之前学习的模型例如决策树，神经网络和支持向量机。

说明：生成式模型和判别式模型

从贝叶斯决策论（概率框架）的角度：机器学习所要做的就是基于有限的训练样本集尽可能准确地估计出后验概率P(c|x）

从机器学习自己的角度：给定一个样本x，求一个能准确分类x的f(x)，其有些算法可以看作是对后验概率建模P(c|x）（例如对数几率回归），而有些算法则是纯粹完成样本分类（例如SVM）

生成式模型建模思路

主要是依据概率论中的贝叶斯公式来进行建模
在这里插入图片描述
由贝叶斯定理进一步化简可以得到：

其中，P( c )是类"先验"概率，P(x|c)是样本c相对于类别标记x的类条件概率，P(x)是用于归一化的“证据”因子。

更为详细的解读可以参考西瓜书中的内容。

朴素贝叶斯分类器

在这里插入图片描述

模型样本的训练过程就是一个参数估计的过程。

提出了属性条件独立性假设：对已知类别，假设所有属性相互独立
在这里插入图片描述
其中，d为属性数目，xi为x在第i个属性上的取值
基于贝叶斯准则可以得到：

由于对所有类别来说P(x)都相同，所以P(x)视作常量可以略去，从而得到西瓜书中的（7.15）朴素贝叶斯分类器表达式

表达式计算

第一步：估计p( c )的值
其中，Dc表示训练集D中类别标记为c的样本集合，|Dc|表示集合Dc的样本总数
第二步：估计P(xi|c)其中第i个属性为离散的属性

其中，Dc,xi表示Dc中在第i个属性上取值为xi的样本组成的集合

【第i个属性为连续属性】(以正态分布假设为例)
在这里插入图片描述

半朴素贝叶斯分类器

半朴素贝叶斯分类器：适当考虑一部分属性间的相互依赖信息，从而既不需进行完全联合概率计算，又不至于彻底忽略了比较强的属性依赖关系。

【独依赖估计（ODE）】：假设每个属性在类别之外最多依赖于一个其他属性，即：（西瓜书中的公式7.21）
在这里插入图片描述

其中中间的符号表示正比于

其中，pai为属性xi所依赖的属性，称为xi的父属性。

【超父独依赖估计（SPODE）】：假设所有属性都依赖于同一个“超父"属性
在这里插入图片描述

对于之后的贝叶斯网的学习需要使用到后面要学习的概率图模型的基础来进行学习求解。

关注

12
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习理论基础—贝叶斯分类器

以一个多分类任务为例：假设当前有一个N分类问题，即={C1,C2，···CN}定义一入ij是将一个真实标记为cj的样本误分类为ci所产生的损失。定义二：单个样本c的期望损失（条件风险）为:其中，P (cj|x)为后验概率定义三：全部样本构成的总体风险为：单个样本的条件风险的合集其中，h为分类器（模型）。显然，分类效果越准确的h，其条件风险和总体风险也越小。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

程序小旭 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。