如何简单理解贝叶斯决策理论（Bayes Decision Theory）？

最新推荐文章于 2024-07-27 10:31:18 发布

woshicver

最新推荐文章于 2024-07-27 10:31:18 发布

阅读量1.3k

点赞数 1

文章标签：机器学习算法人工智能 python 深度学习

链接：https://www.zhihu.com/question/27670909

编辑：深度学习与计算机视觉

声明：仅做学术分享，侵删

作者：胡闰秋
https://www.zhihu.com/question/27670909/answer/540328411

设想这样一个任务：（来源：《模式分类》Pattern Classification）

有鲈鱼(记为 )和鲑鱼（记为）两种鱼。

捕捞上来一条鱼，我们不知道它是鲈鱼还是鲑鱼，要确定它的类型，这一过程就是在做分类。

假设，我们能够观察到的，只有这条鱼的颜色，并且颜色的取值只有两种：

亮色，取值为1；
暗色，取值为0。

下面，我们对一条捕捞上来的鱼进行分类。

1. 鲈鱼（）鲑鱼（）是两个类，若全世界统计意义上：

这两个概率就是先验概率。

现有知识不改变的情况下，这两个概率是不会变的。（此处可以理解为：鲈鱼和鲑鱼在世界上的分布比例不改变的情况下，这两个概率0.7和0.3是不变的）。

若「只基于先验概率」进行判断，取概率较大的作为分类的结果。

那么，由于，我们每一次分类的结果都将是，即鲈鱼。这样的结果显然是不合适的。

2. 于是，我们引入类条件概率密度：。

显然这是一个条件概率，解释为：

的条件下，取某值的概率。

表示各项特征及其取值，这里我们假设只有一项特征：亮暗色。

的取值——

当鱼的颜色为亮色时，
当鱼的颜色为暗色时，

例如，条件概率就解释为：

这一密度的来源：仓库里已有的鱼。

注意，这里仓库里的鱼，满足下面的条件：

我们清楚的知道，仓库中每条鱼的品种，即，每条是鲈鱼还是鲑鱼都做上了正确的标记。
我们清楚的知道，仓库中每条鱼的亮暗色。

知道这些时候，我们就可以计算这个密度了。

例如，仓库里有10条鲈鱼，其中3条是亮色的，7条是暗色的。

那么，是鲈鱼的条件下，为亮色的概率就表示为:

这就是类条件概率。

类条件概率密度，实际上就是考虑取所有可能值的情况（这里就只能是0或1），表示成一个函数的形式：

类似的，鲑鱼的密度你也可以通过仓库里鱼的样本计算。

3. 有了先验，有了类条件概率密度，加上贝叶斯公式，我们就得到后验概率：

上面就是贝叶斯公式，实际上是条件概率公式的一些变形。

公式计算出的的意义为：

的条件下，是第类的概率。

此处的「 的条件下」是我在学习时不大清楚的地方。

但在听老师解释的时候，解释为：「来了一个可以观察的样本 」。

这里的称作样本，原因是它的取值或表示了鱼的暗和亮，而暗和亮在我们的假设中，就能够代表一条鱼，也就是样本了。

如果按照这样的解释，这个概率的意义就是：

来了一个样本（实际上是来了一个数字0【暗】或者1【亮】），这个样本属于鲈鱼还是鲑鱼的概率。

回到上面的贝叶斯公式，可以看到，公式中每个部分的

每一个量，我们全部都已经计算出来了。

这样，现在，再来了一个亮色的鱼，我们就可以利用先验+密度进行计算了。亮色这个信息用上了，也不会盲目判断了。

例如，我们计算出 =0.6，即来了一个样本，是鲈鱼的概率为0.6，那么是鲑鱼的概率自然是0.4，我们做出判决，这条鱼是鲈鱼。

4. 下面考虑算错的情况，即计算贝叶斯决策的错误概率。

例如，刚刚我将那条鱼分类为了鲈鱼。如果我们后来知道，这条鱼实际上是鲑鱼，那么刚刚我们就判决错了。

错误的概率就是刚刚那个样本是鲑鱼的概率，即0.4。

5. 然而，我之所以我将它分为鲈鱼，正是因为亮色是鲈鱼的概率0.6大于亮色是鲑鱼的概率0.4。

6. 那么，我可以保证，按照我制定的这套分类标准，每当分错的时候：

错误的概率一定是二者中较小的那个。

本例中就是0.6和0.4的最小值，即0.4。

因为我总会选那个概率最大的，和为1的情况下，剩下的自然是小的。

7. 因此，两类问题的情况下，贝叶斯分类是一定是最小错分概率的。

8. 泛化问题：如果鱼的类别不只两种，有c种鱼呢？

这时候，正确的分类仍然仅一种（记为类别right），那么错分就有c-1种。

9. 此时，错误概率是：

来了一个样本，我给它分类为第m类，但是m不等于right。

于是计算一个总的错误率，即所有分为不是right类的概率的和：

同样，总的概率还是1，因此我们反向转换一波得到：

，

也就是1-right类概率。

10. 这时候，假如我想设计一个「使得风险最小」的分类器

11. 也就是我希望最小，也就是最大了

上述

【1-3】为贝叶斯分类的步骤，说明的是通过选择后验概率最大的作为分类依据；

【5-11】解释了为什么这样选择可以保证分类的结果具有最小的误差率。

初学模式识别期末复习中，尝试总结一波。

作者：若羽
https://www.zhihu.com/question/27670909/answer/289842612

如果先验概率P（0），P(1)已知，条件概率P(x|1）和P(x|0)也已知，可以计算得到无条件概率：

P(x)=P(0)P(x|0)+P(1)P(x|1)；

作者：啊呗呗
https://www.zhihu.com/question/27670909/answer/37709869

和Frequentist相比一个重要的区别大概是这样的：传统的统计学派认为参数是固定的常数，要做推断是去用数据找参数，而bayes学派则是把参数看成随机变量，因此也就有了prior dist'n，然后再由数据的information，得到posterior

作者：今天是赔钱货吗
https://www.zhihu.com/question/27670909/answer/418137735

首要打好2个基础：这两类均是由2个阶段组成和条件概率的思维

1. 全概公式：首要树立一个齐备事情组的思维，其实全概就是已知第一阶段求第二阶段，比方第一阶段分A B C三种，然后A B C中均有D发作的概率，最终让你求D的概率 P(D)=P(A)*P(D/A） P(B)*P(D/B） P(C)*P(D/C）

2.贝叶斯公式，其实本来应该叫逆概公式，为了留念贝叶斯这样取名罢了。在全概公式了解的基础上，贝叶斯其实就是已知第二阶段反推第一阶段，这时候关键是使用条件概率公式做个天地大移动,跟上面树立的A B C D模型相同，已知P(D)，求是在A发作下D发作的概率，这就是贝叶斯 P(A/D)=P(AD)/P(D)=P(A)*P(D/A)/P(D) 这是概率论第一章了解的难点和要点，期望同学能学好！贝叶斯公式用于求原因概率；全概率公式用于求成果概率，两个公式对照着学会比较容易了解。找到书上贝叶斯公式的例题，把题目中的某已知条件与所求交换一下，就变成从原因求成果概率，而用全概率公式。找到书上全概率公式的例题，把题目中的某已知条件与所求交换一下，就变成从成果求原因概率，而用贝叶斯公式。

☆ END ☆

如果看到这里，说明你喜欢这篇文章，请转发、点赞。微信搜索「uncle_pn」，欢迎添加小编微信「 mthler」，每日朋友圈更新一篇高质量博文。

↓扫描二维码添加小编↓