链接:https://www.zhihu.com/question/27670909
编辑:深度学习与计算机视觉
声明:仅做学术分享,侵删
作者:胡闰秋
https://www.zhihu.com/question/27670909/answer/540328411
设想这样一个任务:(来源:《模式分类》Pattern Classification)
有鲈鱼(记为 )和鲑鱼(记为 )两种鱼。
捕捞上来一条鱼,我们不知道它是鲈鱼还是鲑鱼,要确定它的类型,这一过程就是在做分类。
假设,我们能够观察到的,只有这条鱼的颜色,并且颜色的取值只有两种:
亮色,取值为1;
暗色,取值为0。
下面,我们对一条捕捞上来的鱼进行分类。
1. 鲈鱼( )鲑鱼( )是两个类,若全世界统计意义上:
这两个概率就是先验概率。
现有知识不改变的情况下,这两个概率是不会变的。(此处可以理解为:鲈鱼和鲑鱼在世界上的分布比例不改变的情况下,这两个概率0.7和0.3是不变的)。
若「只基于先验概率」进行判断,取概率较大的作为分类的结果。
那么,由于 ,我们每一次分类的结果都将是 ,即鲈鱼。这样的结果显然是不合适的。
2. 于是,我们引入类条件概率密度: 。
显然这是一个条件概率,解释为:
的条件下, 取某值的概率。
表示各项特征及其取值,这里我们假设只有一项特征:亮暗色。
的取值——
当鱼的颜色为亮色时,
当鱼的颜色为暗色时,
例如, 条件概率就解释为:
这一密度的来源:仓库里已有的鱼。
注意,这里仓库里的鱼,满足下面的条件:
我们清楚的知道,仓库中每条鱼的品种,即,每条是鲈鱼还是鲑鱼都做上了正确的标记。
我们清楚的知道,仓库中每条鱼的亮暗色。
知道这些时候,我们就可以计算这个密度了。
例如,仓库里有10条鲈鱼,其中3条是亮色的,7条是暗色的。
那么,是鲈鱼的条件下,为亮色的概率就表示为:
这就是类条件概率。
类条件概率密度,实际上就是考虑 取所有可能值的情况(这里就只能是0或1),表示成一个函数的形式:
类似的,鲑鱼的密度你也可以通过仓库里鱼的样本计算。
3. 有了先验,有了类条件概率密度,加上贝叶斯公式,我们就得到后验概率:
上面就是贝叶斯公式,实际上是条件概率公式的一些变形。
公式计算出的 的意义为:
的条件下,是第 类的概率。
此处的「 的条件下」是我在学习时不大清楚的地方。
但在听老师解释的时候,解释为:「来了一个可以观察的样本 」。
这里的 称作样本,原因是它的取值 或 表示了鱼的暗和亮,而暗和亮在我们的假设中,就能够代表一条鱼,也就是样本了。
如果按照这样的解释,这个概率的意义就是:
来了一个样本 (实际上是来了一个数字0【暗】或者1【亮】),这个样本属于鲈鱼还是鲑鱼的概率。
回到上面的贝叶斯公式,可以看到,公式中每个部分的
每一个量,我们全部都已经计算出来了。
这样,现在,再来了一个亮色的鱼,我们就可以利用先验+密度进行计算了。亮色这个信息用上了,也不会盲目判断了。
例如,我们计算出 =0.6,即来了一个样本,是鲈鱼的概率为0.6,那么是鲑鱼的概率自然是0.4,我们做出判决,这条鱼是鲈鱼。
4. 下面考虑算错的情况,即计算贝叶斯决策的错误概率。
例如,刚刚我将那条鱼分类为了鲈鱼。如果我们后来知道,这条鱼实际上是鲑鱼,那么刚刚我们就判决错了。
错误的概率就是刚刚那个样本是鲑鱼的概率,即0.4。
5. 然而,我之所以我将它分为鲈鱼,正是因为亮色是鲈鱼的概率0.6大于亮色是鲑鱼的概率0.4。
6. 那么,我可以保证,按照我制定的这套分类标准,每当分错的时候:
错误的概率一定是二者中较小的那个。
本例中就是0.6和0.4的最小值,即0.4。
因为我总会选那个概率最大的,和为1的情况下,剩下的自然是小的。
7. 因此,两类问题的情况下,贝叶斯分类是一定是最小错分概率的。
8. 泛化问题:如果鱼的类别不只两种,有c种鱼呢?
这时候,正确的分类仍然仅一种(记为类别right),那么错分就有c-1种。
9. 此时,错误概率是:
来了一个样本,我给它分类为第m类,但是m不等于right。
于是计算一个总的错误率,即所有分为不是right类的概率的和:
同样,总的概率还是1,因此我们反向转换一波得到:
,
也就是1-right类概率。
10. 这时候,假如我想设计一个「使得风险最小」的分类器
11. 也就是我希望 最小,也就是 最大了
上述
【1-3】为贝叶斯分类的步骤,说明的是通过选择后验概率最大的作为分类依据;
【5-11】解释了为什么这样选择可以保证分类的结果具有最小的误差率。
初学模式识别期末复习中,尝试总结一波。
作者:若羽
https://www.zhihu.com/question/27670909/answer/289842612
如果先验概率P(0),P(1)已知,条件概率P(x|1)和P(x|0)也已知,可以计算得到无条件概率:
P(x)=P(0)P(x|0)+P(1)P(x|1);
后验概率P(0|x)= P(0)P(x|0)/P(x),P(1|x)=P(1)P(X|1)/P(x),如果P(0|x)>P(1|x),判决为0,反之判决为1,如果相等,选谁都一样,此之谓”贝叶斯决策最优“。
作者:啊呗呗
https://www.zhihu.com/question/27670909/answer/37709869
和Frequentist相比一个重要的区别大概是这样的:传统的统计学派认为参数是固定的常数,要做推断是去用数据找参数,而bayes学派则是把参数看成随机变量,因此也就有了prior dist'n,然后再由数据的information,得到posterior
作者:今天是赔钱货吗
https://www.zhihu.com/question/27670909/answer/418137735
首要打好2个基础:这两类均是由2个阶段组成和条件概率的思维
1. 全概公式:首要树立一个齐备事情组的思维,其实全概就是已知第一阶段求第二阶段,比方第一阶段分A B C三种,然后A B C中均有D发作的概率,最终让你求D的概率 P(D)=P(A)*P(D/A) P(B)*P(D/B) P(C)*P(D/C)
2.贝叶斯公式,其实本来应该叫逆概公式,为了留念贝叶斯这样取名罢了。在全概公式了解的基础上,贝叶斯其实就是已知第二阶段反推第一阶段,这时候关键是使用条件概率公式做个天地大移动,跟上面树立的A B C D模型相同,已知P(D),求是在A发作下D发作的概率,这就是贝叶斯 P(A/D)=P(AD)/P(D)=P(A)*P(D/A)/P(D) 这是概率论第一章了解的难点和要点,期望同学能学好!贝叶斯公式用于求原因概率;全概率公式用于求成果概率,两个公式对照着学会比较容易了解。找到书上贝叶斯公式的例题,把题目中的某已知条件与所求交换一下,就变成从原因求成果概率,而用全概率公式。找到书上全概率公式的例题,把题目中的某已知条件与所求交换一下,就变成从成果求原因概率,而用贝叶斯公式。
☆ END ☆
如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 mthler」,每日朋友圈更新一篇高质量博文。
↓扫描二维码添加小编↓