17、经验贝叶斯估计

经验贝叶斯估计

贝叶斯估计的问题定义为根据一些观测数据 x 来估计未知参数 θ,用一个损失函数来衡量估计的准确性,如果用均方误差(MSE)来估计的话,将问题建模为

等价于求解后验分布的均值

最小均方误差估计器 minimum mean square error (MMSE) estimator

上式中需要知道后验概率p(θ|x),它是利用贝叶斯定理求出来的,因此需要先知道似然函数p(x|θ)以及先验分布p(θ)

在此之前,经典贝叶斯参数估计中,有一组观察样本,是从条件概率密度为p(x|θ)的分布中采样出来的,在已知先验 p(θ) 参数的前提下,估计目标参数

但是经验贝叶斯 (Empirical Bayes)里,先验分布的参数是没有提前给定的,也是要通过观测数据去估计。

经验贝叶斯方法可以被看成是分层贝叶斯模型:在一个两阶段的分层贝叶斯模型中,观测数据是从一组未知的参数 中根据 p(x|θ)生成的,注意每一个样本

只对应参数 ,不像经典贝叶斯估计,对于一个参数有多个观测数据,而是对于一个参数只有一个观测数据;

θ是从 中获取的,其中 是非参数的分布,也可以直接表示为 p(θ)。目标是估计

以一个高斯分布为例,先从分布 采样一组,再分别从分布中采样一个,构成一组观测,相当于二次采样

另一种理解的方式是将它看成是一个多元混合分布呢,采样一个样本,但它有多个维度,每个维度是服从一个分布的,所以不同维度就服从不同的分布。

如果要统一起来,方便符号表示的话,记单一样本为 ,下标表示是第几维,上标表示是这一维的第几次采样。

利用最大似然估计,很容易得知 ,因为对于待估计的参数 只有一个观测样本。而如果有更多m个观测样本 则会估计得更准确。

直观理解就是:经验贝叶斯需要用到辅助的经验信息,待估计参数可以通过其他相关参数进行辅助(因为这些参数是从相同的先验形式),而其他相关参数又是可以通过其他观测数据获得的,这样就可以使用来自其他观测数据来改进特定参数的估计性能。

Robbins Estimator (罗宾斯估计)

根据经验贝叶斯估计定义,在泊松分布下:

后验的期望

对于边缘分布 p(x) 可以用 x 出现的频率来估计,如果知道对应取值的出现频次分别为 那么

最终得到了罗宾斯估计结果,而要用到这个结论,需要知道事件发生的频次,而且目标项只增加后一项对它的信息增强,如果目标项是最后一项其实也是无能为力的。

James-Stein Estimator (詹姆斯坦估计)

罗宾斯估计中是针对泊松分布进行的研究,詹姆斯坦估计则是针对高斯分布进行的研究。我们先假设一个简单的例子,其中 θ 是未知的,σ 是已知的:

先要写出 x 的边缘分布

积分部分的推导是利用了 Gaussian intergral 的一个结论

也是一个高斯分布,意味着 是从分布 中采样得到的,且与先验分布的参数无关。 同时可以通过这些观测样本来估计先验分布的参数 (n-1来自于无偏估计):

进一步推导后验分布

后验的期望就可以表示为

上述期望的含义是估计在观测样本下参数的值。对于一个具体的观测样本 和它对应的参数 ,并代入下式其他样本的估计

可以写出

相较于罗宾斯估计只用到一个相关观测,詹姆斯坦估计用到了所有观测量

接下来写出它的更一般形式。对于一个多元 ( d 元) 高斯分布 ,注意加粗表示他们都是向量,其中 θ 是未知的 (待估计),而 σ 是已知的。其中每一维 都是随机变量;是 x 的一个观测样本,也就是只采样了一次,不像通常采样 n 个样本。

想根据这一个观测来估计 θ ,采用最大似然估计,可以很容易地得到 。因为只有一次观测,那当然就以这个观测值作为均值了。

然后James–Stein提出了一个新的估计方法,并证明当 d≥3 时,能够获得比最大似然估计更小的均方误差。而这个新的估计方法写作:

当然了,对于每一维变量,都可以分开来计算:

如果 σ 是未知的话,也可以通过 或者无偏估计 来估计;以及如果有更多的 (n 个) 观测样本 ( 是 d 维的),可以修正为:

顺带提一下,括号部分被称为收缩因子 (shrinkage factor)

Tweedie Estimator

假设了先验 p(θ) 是服从正态分布的,可以通过观测数据估计出参数σ。如果不对先验进行假设呢?

依旧使用 ;同时先写出边缘分布的形式

这里其实可以发现 后验期望与先验分布无关,一直保有着 p(θ) 的雏形而没有探究它的具体样子,而仅与边缘分布有关,利用样本估计边缘分布即可。因此可以写出Tweedie’s estimator:

为了提高边缘密度估计的精度,往往会假设边缘密度属于某个参数分布族。

结论

参考于:一文解释 经验贝叶斯估计, Tweedie's formula - 知乎 (zhihu.com)

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值