似然函数 极大似然估计 后验概率 最大后验概率估计

这篇主要想总结一下与标题相关的一些概念。之前一直也是模模糊糊的。

先设定一个大环境:现在假设我们有一个产生数据的机器,我们这个机器的参数为θ,机器产生的结果的结果为x。不同的参数可以产生不同的结果。后面我们的θ,x也分别是参数、结果的意思。

概率密度

首先引入概率密度函数 ,它也等于:

这几种写法。  

这个很好理解:在参数θ下得到x的可能性。概率密度函数是关于x的函数

  注意:对于这里P当中的竖杠|以及下文中所有类似的竖杠|可以当成条件概率来理解,但它并不是条件概率!因为θ不是随机变量,而是个参数。这篇文章的最后一段会详细探讨这一点。

似然函数

  接下来引入似然函数。什么是似然函数?首先我们了解一下似然函数可以写成哪些形式,有以及等。

  我们拿L(θ|x)来说,乍一看,好像是数据为x的条件下我们参数为θ的概率(虽然这里是L(θ|x),不是P(θ|x))——其实也差不多正是这个意思,我们可以换个说法,它是指:在x已经出现时,此时的参数是θ的可能

  可以发现,似然函数就是“反着”来的,先知道结果x,再去推断参数θ应该是怎么样的。其中,x是已知的,θ的为止的,似然函数是关于θ的函数

  对似然函数,我们有这样一个结论:

  可以发现前者是个似然函数,但后者是个概率密度函数,二者两者意义不同,但其值相同,所以计算时经常当成一个东西。再次重复强调:似然和条件概率的值相同,但代表的意思不同。

  最后对似然函数举个例子,假设我们已知班级里有一个同学考了一百分,而参加这次考试的就两个人,一个是成绩特别好的A,另一个是经常挂科的B,那么按常理我们肯定是认为这位满分选手是A的可能性更大。用似然函数表示就是: L(A|100分)=P(100分|A)>P(100分|B)=L(B|100分)

(这里的P(100分|A)等同于P(100分;A),P(100分|B)等同于P(100分;B),因为A和B都是参数,参见最后一段)

  通过上面的描述和例子,似然函数与概率密度函数的关系和含义应该很清楚了。

极大似然估计

  此外我们更经常提的名词“极大似然估计”,又是怎么一回事呢?

  之前讲的简单例子对于一个参数θ都是一个结果x,但大多数情况下,我们有一个参数集θ1,θ2……,结果也有结果集x1,x2……

  就先当只有一个参数θ吧,大多情况下的似然函数,可以写成这样:

(或者这样:L(θ|x1,x2,x3……)) 

  我们可以理解成x1是科目1成绩,x2是科目2成绩……已经知道了这些成绩现在的具体情况(比如都是满分),到底是谁来当这个θ比较合理呢?

  所谓“极大似然估计”,就是我们找到一个最合适的θ,让这个公式的数值(或者说这些结果同时发生的合理性)尽可能大

  极大似然估计的意思就讲完了。

  那怎么去进行极大似然估计的计算呢?

把这个公式展开:

就等于 (这里p(xi;θ)的意思可以看最后一段。)

  可以理解成θ考出这个总成绩单的似然=θ科目1考了x1分的似然*θ科目2考了x2分的似然*……科目n考了xn分的似然。

  我们现在希望找到一个θ使得整体式子最大,所以转换成这是一个以θ为参数的函数。不需要高等数学,上过高中数学的我们知道:此时只要我们对θ求导,找到导数为0的极大值点,那么那个点的位置就是θ要取的值!

  那么如何对进行求导呢?对于这么一个“连乘”的形式,非常常见的作法(甚至就是固定模式)就是取ln变成连加的形式(注意,取ln虽然会改变原来值的大小,但是不会改变其单调性,因为ln本身就是一个单调递增函数,所以对后续求导以及找出导数值为0的点没有影响~)。

最后我们对这个整体求导(对θ求导)使导数等于0,就可以得到θ的值了。这个θ就是我们“估计”出的、令似然函数最大的值。

后验概率

  通过上面的几种情况说明,我们似乎已经对各个符号的意义十分明确了。但似乎还少了一个东西——请问,P(θ|x)是什么?

  是似然函数吗?好像不是,似然函数是写成L(θ|x)吧,是概率密度函数吗?好像也不是,概率密度函数是P(x|θ)。

  对于P(θ|x),这个东西,我们管它叫做后验概率。我们都学过贝叶斯公式,把它用贝叶斯工时展开,各个项的具体意义如下:

  上面已经说过了,其中P(x|θ)虽然也是概率密度,但在值上等于似然,因此就把它当成似然即可。

最大后验概率估计

  原来对于似然L(θ|x),我们勉强理解为“在x出现的情况下参数是θ的可能”,极大似然估计则是在x已经出现的情况下,找到一个最合适的θ使L(θ|x)最大或者P(x|θ)最大(这二者值是一样的!后面不再强调了)。

  那么对于现在这个后验概率P(θ|x),我们该咋理解呢,其实也是这样也差不多,P(θ|x)是x出现的情况下,参数为θ的概率,最大后验概率估计则是在x已经出现的情况下,找到一个最合适的θ,使P(θ|x)最大。

  等等!这么一对比,好像极大似然估计和最大后验概率估计没啥区别嘛,也就是写法不同而已。其实有那么一点点区别,我们根据刚才的公式来看:

  在最大后验概率估计中,因为默认x已经出现了,所以P(x)可以省去,式子化简为:

 

  可以发现,最大后验概率估计=用极大似然估计*先验概率知识

  那么对于最大后验概率估计的计算方式也很简单了,就在极大似然函数的基础上多乘以一个先验概率即可。同样是取log然后求导,不再展开了。

  直观点理解,似然估计是只考虑结果x,从而逆推参数θ的概率;而后验概率估计是结合数据和先验概率去综合考虑得到的结果。举个例子:抛出两次硬币,都是正面朝上。则根据极大似然估计,我们认为正面朝上的概率100%;而根据最大后验概率估计,我们知道有个“硬币两面的概率是各一半”这一先验知识,所以最终估算出来的结果不会到达100%,而是介于50%到100%之间。这个例子不是很严谨,但可以简单通过这个例子理解一下。

小总结:

似然

1.可以表示似然值的一些写法:P(x|θ)   p(x;θ)   L(x;θ)  L (θ|x)

2.极大似然估计是找到最合适的参数使其满足,可以通过取log转化求解。

后验概率

  1. 可以表示后验概率的写法:P(θ|x) 没了。
  2. 最大后验概率估计是找到最合适的参数使其满足,它与极大似然估计的关系是:最大后验概率估计=用极大似然估计*先验概率知识。最后求解也是通过取log来做。

最后一段:

  结尾再明确一个东西:对于P(x|θ)这个东西,我们很容易把它当成条件概率,但它并不是条件概率。假如θ也是一个随机变量(事件),则P(x|θ)才是一个条件概率(因为条件概率是指事件A、变量A发生的条件下事件B、变量B发生的概率,二者得都是事件);假如θ是这篇文章中提到的参数,则P(x|θ)此时是待估参数,与P(x;θ)等价,甚至可以直接认为是p(x),加了;只是为了说明这里有个θ的参数。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JunanP

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值