贝叶斯(1)

作者:子楠
链接:https://zhuanlan.zhihu.com/p/22805488
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

班主任:你们两个在干什么?班长小红,给我过来,叙述一下事情经过!

小红,现在我是小白,你是小明,说一下你们为什么吵架!


好的老师,小明好坏好坏的,他莫名其妙过来,什么前提条件都不给,上来就是一句“我是你爸爸”

你接着就是一巴掌,然后说“你麻痹不给定前提条件,给我的就是个无信息先验分布,等同于前提条件等于正无穷,所以你说我是你爸爸这个结果的符合概率为1/∞≈0”所以说你的命题“我是你爸爸”的概率为0。

然而经过我的验证,目前全世界有70亿+1人,而其中一定有一人是你爸爸,我是一个人的概率为1,所以在这个假定条件下,我有理由认为,P(我是你爸爸) = P(这个世界上有一个人是你爸爸)*P(我是一个人)/P(全世界人有70亿)=1*1/70亿的概率,我是你爸爸。

然后他摸了摸被打残的脸,微微一笑说,你忽略了一件事,我也是一个人,所以在你的假设条件下,我也有理由认为P(我是你爸爸) = P(这个世界上有一个人是你爸爸)*P(我是一个人)/P(全世界人有70亿)=1*1/70亿的概率,我是你爸爸。所以我是你爸爸的概率等同于你是我爸爸。

那么,假设我们俩其中有一个人是对方爸爸,现在在这个样本下,我们俩互相是对方爸爸的概率为:

P(我是你爸爸/基于我们俩其中有一个人是对方爸爸) = P(全世界有一个人是你爸爸,这个人是我)/(P(全世界有一个人是你爸爸,这个人是我)+P(全世界有一个人是我爸爸,这个人是你))等于1/2,所以我有50%的概率是你爸爸而你只有1/70亿的概率是我爸爸!所以我是你爸爸。

然后你飞起就是一巴掌:你个SB,你的50%的概率建立在已经验证了“基于我们俩其中有一个人是对方爸爸”这个假定条件下,是个后验概率,我的1/70亿的概率基于还没有验证上面哪个假定条件的前提下,属于先验概率,拿后验概率和先验概率样本都不一样来比,你说你四不四潵?????

说到这里,小红说。这时候我实在看不下去了,一会儿我是你爸爸,一会儿全世界有一个人是你爸爸的,这么长,还让不让人吵架了。于是我就上去劝说了一下:

要不这样,我们把你们想要证明的“我是你爸爸”作为结论Y。你们的目的是证明结论Y的合理性,也就是概率,那么,你们要提出一些假设X,我们才能知道你们在假设空间X以下的概率instead of 而不是1除以无穷等于0。

然后呢,你们俩逗逼都是在从人的范畴里找符合定义,所以我们简单认为你们是基于个体为人这个单位个体的均匀先验分布假设这个分布为C,为某一个常数,(就打算是为1吧,反正待会儿要约掉)。

辣么在我们不知道具体数字的时候,我们给这个概率一个标志,既然是在假设空间X中Y的概率,辣么就称之为P(Y,x)。设若你们的所有假设在同一个假设空间C中,那么C就可以约掉,现在我们就考虑X单独发生的概率为P(x),Y单独发生的概率为P(Y),辣么x和Y同时发生的概率,就等于Y和x同时在一个共同的假设空间C发生的概率。也就是说,在假设空间x中,Y发生的概率,乘以假设空间x发生的概率,就等于反过来,在假设空间Y中,X发生的概率,乘以假设空间Y。

即:P(Y,x)*{P(x)={P(x,Y)*P(Y)}}


这样考虑我们要得到的目标P(Y,x),就可以放到等式左边,写为:P(Y,x)=\frac{P(x,Y)*P(Y)}{P(x)}

这就是你们的最佳假设。

然后你们的最佳假设,我们来算算P(Y,x),由于你们认定的全空间为C,那么:

P(Y)=1/C

P(x)=1/C

P(x,Y)=1/X(X为所有x的数量,也就是x所在的假设空间的容量大小)

辣么,就可以算出,P(Y,x)=1/X

小明很生气,辣么,如果我们的假设条件建立在相同的假设空间下,岂不是又是概率一样咯。那我如何向小白证明我是你爸爸呢?难道我们的友好讨论,就变成了提出更多的假设吗?这岂不是和小孩子吵架一样了么?

小红瞪了小明一眼:你们说的话是100%可信的么?不是100%可信不就有噪音么?所以,你们的假设x的概率不应该是你们的假设f(x),而应该f(x)+\varsigma ,这个\varsigma 表示的就是你们假设的杂音量。一般而言,你们这些正太瞎扯淡的噪音满足正态分布。

所以现在我们就要讨论下一个问题了,在描述了足以确认我是你爸爸的条件下,才能最大化证明假设我是你爸爸的正确性,那么,如何找到这个最大可能性呢?

所以我们做个最大似然假设,hmax,假设满足hmax要提出i个在区间I里的使用x符合要求的基本假设h,那么,这个hmax的概率就可以简单地假设为:

h_{max} = max(\prod_{i\in I}P(Y,h) )也就是说使表达式最大时的

由于我们这里的正确假设为h,那么就可以认为大Y是有一堆小y组成的,其中y=h(x)+\varsigma ,我们可以吧\varsigma 提到一边去,得到\varsigma =y-h(x)。那么,由于\varsigma 满足高斯分布,所以得到

max:\prod_{i\in I}P(Y,h) = \prod_{i\in I}\frac{1}{\sqrt{2\pi \sigma ^2} } e^{-1/2(y-h(x_i))^2/\sigma ^2}

嘛,看不懂无所谓。反正要约掉的,由于我们求的是最大值而不是具体值,求得是使该公式最大的时候的参数,所以就可以把杂七杂八的都约了,得到:

max:\sum_{i\in I}^{}-({y-h(x_i)})^2

换言之,也就是找到

min:\sum_{i\in I}^{}({y-h(x_i)})^2 (找到这个令这个公式最小时的参数)


所以说,你们要证明自己是对方爸爸,就要找到令你的论据,应对与你的假设空间,得到的差值的最小时的论据,这样才能最有可能证明自己是对方爸爸!!!!

接下来小红又继续说了。然而,你们对于我是你爸爸这个结果的描述(x)越多,得到的杂音根据公式也会越大,也就是说,对于我是你爸爸这条信息的置信度也就越低。相对应的,之前你们也说了,自己提出的假定条件越少,得到我是你爸爸这个结论的概率也会越低。所以,我们要找到一个在证明“我是你爸爸”时,最优的描述。

既然要得到的是,最优的描述,那么我们可以理解为,已经验证的条件下(验证以后发现)这个描述是最优描述,就是验证后概率最大的描述。假设条件为x,则描述得到的概率(最大后验公式),简单写为:P(Y,x)P(x)。

我们的目标就是令这个概率最大对吧?MAX:P(Y,x)P(x)

嘛……既然我们的目标是“描述”,那么也就是关于“信息”的处理,那么就参考一下香农的信息论:(信息论:维基百科

嘛……我也懒得看,所以我就随便抓了一个叫做熵的东西过来,熵嘛,这样定义的,I=-log(p),意思就是概率为p的事情包含的信息量,log的底数取决于信息量的单位,比如比特什么的……嘛。这里管不到。

然后我就就看我们要max的公式嘛,P(Y,x)P(x),取个对数(底是什么随便你)比如我们这里用log,就变成了使log(P(Y,x))+log(P(x))最大,按照哪个熵里面log有个负号,就变成了:

使-log(P(Y,x))-log(P(x))最小。

也就是min: I(P(Y,x))+I(P(x))

翻译成人话就是,使描述的信息熵,对于描述:结论Y由x的假定条件,以及x的假定条件,总信息量最短的描述,就是最优描述,简称最短信息描述。

以小明和小白的观点就是:要达到证明我是你爸爸最准确,就得让“描述在某条件下,我是你爸爸”的信息,加上“描述某条件的信息”,总体来说最小。

嗯,这个最短信息描述在玄学界还有个别名,叫做奥卡姆剃刀……


老师,我说完了。


班主任:



小明和小白:所以我俩就合伙揍了她一顿。


下课。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值