极大似然估计
极大似然估计的基本想法是:
我们所看到的,就是最可能发生的。
所以通过最大化实验数据发生的概率
P(x|θ)
(其中参数
θ
是未知的),取极值时对应的
θ ^
即为最大似然估计。
贝叶斯估计
P(θ|x)=P(x|θ)P(θ) ∑ θ P(x|θ)P(θ)
θ
表示一个事件发生的
概率,例如扔一个硬币的结果正面朝上的概率,这个
概率
θ
是一个随机变量,
P(θ)
为
θ
的先验分布,“先”表示在实验之前,先验是指获得数据之前对于事件发生概率
θ
的预估,实际上就是预先假定的
θ
的一个概率分布;
x
表示实验数据。
理解的关键在于把事件发生的概率
θ
看作一个随机变量,
不妨假设
θ
取值空间为
θ i ,1≤i≤N
,其中
∑ N i=1 θ i =1
,将上面的公式写得更加容易理解一点如下:
P(θ=θ i |x)=P(x|θ=θ i )P(θ=θ i ) ∑ N i=1 P(x|θ=θ i )P(θ=θ i ) ,1≤i≤N
在实验之后,利用实验数据对
θ
的概率分布进行校正,即得到
θ
的后验分布,然后求期望,最终得到贝叶斯估计
θ ^ =∑ N i=1 θ i P(θ=θ i |x)
一般地,对于连续随机变量
θ
,
θ
的贝叶斯估计为:
θ ^ =∫θP(θ|x)dθ
下面考虑一个简单的例子:
一枚硬币,抛掷出现正面的概率为 p,出现反面的概率为 1-p,但是参数 p 未知。
为了估计参数 p 的取值,进行 10 次随机试验,出现了 3 次正面, 7 次反面。
现在我们已经获取了实验数据,问题是如何才能通过实验数据估计出参数 p 呢?
极大似然估计:
参数
θ
在该问题中指的是正面出现的概率p,实验数据指的是在10次实验中出现3次正面,7次反面。
如果实验中出现h次正面,t次反面,则该实验结果出现的频率为(假设正反面出现的次序确定):
P(x|θ)=p h (1−p) t
第二步,极大化上面的式子即可得到p的贝叶斯估计。由于极大化
P(x|θ)
等价于极大化
log[P(x|θ)]
,所以可以通过求解
log[P(x|θ)]
的最大值简化求解过程
log[P(x|θ)]=hlog[p]−tlog[1−p]
极值条件为
∂log[P(x|θ)] ∂p =0
∂log[P(x|θ)] ∂p =h p −t 1−p =0
求解上式可以得到
p ^ =h h+t
这就是硬币正面出现概率的极大似然估计。将具体的实验结果代入以上公式计算这枚硬币出现的概率为 p=3/10。
可能有人会想,为啥要搞的这么麻烦,
p ^ =h h+t
是多么的直白明了,即使不使用极大似然的方法仍然能够写出
p ^ =h h+t
。对于硬币的问题,我们的确可以更快捷的凭借直觉给出参数 p 的估计,那是因为参数 p 有明确的含义,p 表示概率,我们很容易想到使用频率来估计概率。但是有的问题中参数
θ
没有明确的含义,我们就很难通过直觉来得到参数
θ
的估计量
θ
。简单来说我们的直觉能够在待估参数有明确含义的时候提供便捷,但是当待估参数没有明确含义的时候我们的直觉只能靠边站,事情交由极大似然估计来解决。
贝叶斯估计
下面我们考虑利用贝叶斯估计来解决这个问题。
还是回到硬币的问题,我们通过极大似然估计得到硬币出现正面的概率是 3/10,但是生活经验告诉我们硬币正反面出现的概率相等都是 1/2。到底我们应该相信那个结果呢?一种好的方法就是将生活经验和实验数据两个因素综合在一起考虑,贝叶斯估计很好的做到了这一点。
贝叶斯估计可以分为三个步骤来实现。第一步确定先验,第二步写出似然函数并计算后验,第三步根据后验计算贝叶斯估计。下面通过硬币的例子来说明贝叶斯估计的实现步骤。
第一步确定先验,我们使用的先验分布是
p∼Beta(α,beta)
,
Beta(α,β)
具体是这个样子
f(p;α,β)=Γ(α+β) Γ(α)Γ(β) p α−1 (1−p) β−1
Beta(α,β)
的含义是实验之前已经进行了
α+β
次扔硬币的实验,出现了
α
次正面和
β
次反面。
第二步写出似然函数,并计算后验。
P(θ|x)∝P(x|θ)P(θ)
P(x|θ)P(θ)=p h (1−p) t Γ(α+β) Γ(α)Γ(β) p α−1 (1−p) β−1
添加归一化系数(保证
∫ θ P(x|θ)P(θ)=1
)之后可以得到
P(θ|x)=p h (1−p) t Γ(α+β+h+t) Γ(α+h)Γ(β+t) p α+h−1 (1−p) β+t−1
即
P(θ|x)∼Beta(α+h,β+t)
故可得
p ^ =α+h α+β+h+t
代入具体的数据,
α=200,β=200,h=3,t=7
计算可得
p ^ =α+h α+β+h+t =203 410 =0.495
我们的先验知识对结果产生了很大的影响,不添加先验时极大似然估计的结果是 p=3/10,添加先验之后,较少的实验数据只对先验做出微小的调整,贝叶斯估计的结果是