读《统计学关我什么事》有感
本质:
当你面对的问题需要你推理,从备选的几个结果中选一个的时候。你需要根据已有的信息判断这几个备选的结果各自的概率是多少,并选择概率最大的那一个。那贝叶斯推理是怎么推的呢。
首先当没有辅助信息的时候,咱们对这几个备选的结果只有一个经验的概率值。
然后加入一条辅助判断的信息时,对应每个备选结果都会有个概率值,即符合辅助判断信息的概率值。我们根据这个概率值,就能更进一步的修正几个备选结果的概率了。
举个书里的例子
假设一个顾客来店里,他可能是来买东西,也可能只是来逛一逛的。我们要判断是哪种。这个时候没有辅助信息,我们只有一个经验的概率值,学名叫先验概率
买东西的 | 逛一逛的 | |
概率 | 0.8 | 0.2 |
然后我们加一个辅助条件,会不会询问店员
这里就要分两种情况,买东西的人和不买东西的人询问店员跟不询问店员的概率。
买东西的 | 逛一逛的 | |
询问店员 | 0.9 | 0.3 |
不询问店员 | 0.1 | 0.7 |
值得注意的是,纵向来看,0.9+0.1 = 1 ,0.3+0.7=1
如果我们把这个辅助信息的概率跟前面的先验概率结合一起
买东西的 | 逛一逛的 | |
询问店员 | 0.72 | 0.06 |
不询问店员 | 0.08 | 0.14 |
0.72的概率就是说,既是买东西的也是询问店员的。我们会发现0.72+0.08+0.14+0.06=1
假设这个时候有个人来店里,并且询问了店员。
买东西的和逛一逛的概率各自是0.72,0.06。加起来不等于1,因为我们考虑了询问店员这件事是有概率的。但是此时已经发生。为了做进一步的判断,我们可以把0.72,0.06理解为0.9,0.1。概率上来说一样。
此时我们发现,没有辅助信息的时候,买东西和逛一逛的概率分别为0.8,0.2但是现在变成了0.9,0.1。这个学名就叫贝叶斯更新。可以看出来,对于判断来客是买东西的还是逛一逛的,由于加入了辅助信息,我们的推理更近一步了。
发散思维
贝叶斯这种推理的思维,可以这样用。比如说我们要判断一张图片,它有没有猫。一开始我们有个先验概率,按这个概率来给出是不是猫的判断非常不靠谱。然后我们从图里提取特征值,比如颜色,形状,等等。然后这些特征会有概率,比如说菱形的外观,是猫的概率0.6不是猫的概率0.4。我们让这个特征值的概率跟先验概率结合一下,推理就更进一步,给出的结果就靠谱一丢丢了。如果这个特征值的数量很多,几十几百个,这样不停更新概率,推进推理,到一定程度,我们就可以给出比较靠谱的结果了。
再发散思维一下,刚刚这些特征值的概率谁给的。机器学习了解一下,可以是监督学习,我们一开始不知道这些特征值的概率应该是多少,但是我们通过监督反馈,让机器自己去学习去训练这个特征值的概率,其实也就是权重。反复训练之后,我们得到一个模型,这个模型包含了很多很多的权重,其实也就是那些特征值的概率。这个时候,你再输入一张图片,我们通过提取特征值,更新概率,一下就能给出是猫的概率多少,不是猫的概率多少。