如何简单理解贝叶斯决策理论(Bayes Decision Theory)?

链接:https://www.zhihu.com/question/27670909

编辑:深度学习与计算机视觉

声明:仅做学术分享,侵删

作者:胡闰秋
https://www.zhihu.com/question/27670909/answer/540328411

设想这样一个任务:(来源:《模式分类》Pattern Classification)

有鲈鱼(记为 )和鲑鱼(记为 )两种鱼。

捕捞上来一条鱼,我们不知道它是鲈鱼还是鲑鱼,要确定它的类型,这一过程就是在做分类。

假设,我们能够观察到的,只有这条鱼的颜色,并且颜色的取值只有两种:

  • 亮色,取值为1;

  • 暗色,取值为0。

下面,我们对一条捕捞上来的鱼进行分类。

1. 鲈鱼( )鲑鱼( )是两个类,若全世界统计意义上:

这两个概率就是先验概率

现有知识不改变的情况下,这两个概率是不会变的。(此处可以理解为:鲈鱼和鲑鱼在世界上的分布比例不改变的情况下,这两个概率0.7和0.3是不变的)。

若「只基于先验概率」进行判断,取概率较大的作为分类的结果。

那么,由于 ,我们每一次分类的结果都将是 ,即鲈鱼。这样的结果显然是不合适的。

2. 于是,我们引入类条件概率密度

显然这是一个条件概率,解释为:

的条件下, 取某值的概率。

表示各项特征及其取值,这里我们假设只有一项特征:亮暗色。

的取值——

  • 当鱼的颜色为亮色时,

  • 当鱼的颜色为暗色时,

例如, 条件概率就解释为:

这一密度的来源:仓库里已有的鱼。

注意,这里仓库里的鱼,满足下面的条件:

  • 我们清楚的知道,仓库中每条鱼的品种,即,每条是鲈鱼还是鲑鱼都做上了正确的标记。

  • 我们清楚的知道,仓库中每条鱼的亮暗色

知道这些时候,我们就可以计算这个密度了。

例如,仓库里有10条鲈鱼,其中3条是亮色的,7条是暗色的。

那么,是鲈鱼的条件下,为亮色的概率就表示为:

这就是类条件概率。

类条件概率密度,实际上就是考虑 取所有可能值的情况(这里就只能是0或1),表示成一个函数的形式:

类似的,鲑鱼的密度你也可以通过仓库里鱼的样本计算。

3. 有了先验,有了类条件概率密度,加上贝叶斯公式,我们就得到后验概率:

上面就是贝叶斯公式,实际上是条件概率公式的一些变形。

公式计算出的 的意义为:

的条件下,是第 类的概率。

此处的「 的条件下」是我在学习时不大清楚的地方。

但在听老师解释的时候,解释为:「来了一个可以观察的样本 」。

这里的 称作样本,原因是它的取值 表示了鱼的暗和亮,而暗和亮在我们的假设中,就能够代表一条鱼,也就是样本了。

如果按照这样的解释,这个概率的意义就是:

来了一个样本 (实际上是来了一个数字0【】或者1【】),这个样本属于鲈鱼还是鲑鱼的概率。

回到上面的贝叶斯公式,可以看到,公式中每个部分的

每一个量,我们全部都已经计算出来了。

这样,现在,再来了一个亮色的鱼,我们就可以利用先验+密度进行计算了。亮色这个信息用上了,也不会盲目判断了。

例如,我们计算出 =0.6,即来了一个样本,是鲈鱼的概率为0.6,那么是鲑鱼的概率自然是0.4,我们做出判决,这条鱼是鲈鱼。

4. 下面考虑算错的情况,即计算贝叶斯决策的错误概率

例如,刚刚我将那条鱼分类为了鲈鱼。如果我们后来知道,这条鱼实际上是鲑鱼,那么刚刚我们就判决错了。

错误的概率就是刚刚那个样本是鲑鱼的概率,即0.4

5. 然而,我之所以我将它分为鲈鱼,正是因为亮色是鲈鱼的概率0.6大于亮色是鲑鱼的概率0.4。

6. 那么,我可以保证,按照我制定的这套分类标准,每当分错的时候:

错误的概率一定是二者中较小的那个。

本例中就是0.6和0.4的最小值,即0.4。

因为我总会选那个概率最大的,和为1的情况下,剩下的自然是小的。

7. 因此,两类问题的情况下,贝叶斯分类是一定是最小错分概率的

8. 泛化问题:如果鱼的类别不只两种,有c种鱼呢?

这时候,正确的分类仍然仅一种(记为类别right),那么错分就有c-1种。

9. 此时,错误概率是:

来了一个样本,我给它分类为第m类,但是m不等于right。

于是计算一个总的错误率,即所有分为不是right类的概率的和:

同样,总的概率还是1,因此我们反向转换一波得到:

也就是1-right类概率。

10. 这时候,假如我想设计一个「使得风险最小」的分类器

11. 也就是我希望 最小,也就是 最大了

上述

【1-3】为贝叶斯分类的步骤,说明的是通过选择后验概率最大的作为分类依据;

【5-11】解释了为什么这样选择可以保证分类的结果具有最小的误差率。

初学模式识别期末复习中,尝试总结一波。

作者:若羽
https://www.zhihu.com/question/27670909/answer/289842612

如果先验概率P(0),P(1)已知,条件概率P(x|1)和P(x|0)也已知,可以计算得到无条件概率:

P(x)=P(0)P(x|0)+P(1)P(x|1);

后验概率P(0|x)= P(0)P(x|0)/P(x),P(1|x)=P(1)P(X|1)/P(x),如果P(0|x)>P(1|x),判决为0,反之判决为1,如果相等,选谁都一样,此之谓”贝叶斯决策最优“。


作者:啊呗呗
https://www.zhihu.com/question/27670909/answer/37709869

和Frequentist相比一个重要的区别大概是这样的:传统的统计学派认为参数是固定的常数,要做推断是去用数据找参数,而bayes学派则是把参数看成随机变量,因此也就有了prior dist'n,然后再由数据的information,得到posterior

作者:今天是赔钱货吗
https://www.zhihu.com/question/27670909/answer/418137735

首要打好2个基础:这两类均是由2个阶段组成和条件概率的思维

1. 全概公式:首要树立一个齐备事情组的思维,其实全概就是已知第一阶段求第二阶段,比方第一阶段分A B C三种,然后A B C中均有D发作的概率,最终让你求D的概率 P(D)=P(A)*P(D/A) P(B)*P(D/B) P(C)*P(D/C)

2.贝叶斯公式,其实本来应该叫逆概公式,为了留念贝叶斯这样取名罢了。在全概公式了解的基础上,贝叶斯其实就是已知第二阶段反推第一阶段,这时候关键是使用条件概率公式做个天地大移动,跟上面树立的A B C D模型相同,已知P(D),求是在A发作下D发作的概率,这就是贝叶斯 P(A/D)=P(AD)/P(D)=P(A)*P(D/A)/P(D) 这是概率论第一章了解的难点和要点,期望同学能学好!贝叶斯公式用于求原因概率;全概率公式用于求成果概率,两个公式对照着学会比较容易了解。找到书上贝叶斯公式的例题,把题目中的某已知条件与所求交换一下,就变成从原因求成果概率,而用全概率公式。找到书上全概率公式的例题,把题目中的某已知条件与所求交换一下,就变成从成果求原因概率,而用贝叶斯公式。

☆ END ☆

如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 mthler」,每日朋友圈更新一篇高质量博文。

扫描二维码添加小编↓

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值