彻底理解confidence interval和credible interval

Confidence Interval

也就是我们熟知的置信区间,比如我们常见的95%置信区间。那么究竟该如何理解这个置信区间呢?首先,我们需要明确一点,置信区间的概念是基于频率学派的,他们认为参数的真实值应该是固定的(但是我们不知道)。因此他们的做法就是通过不断的采样来构造参数估计的区间,以期望这个区间能够包含真实的参数值。事实上,置信区间就是这样一个基于采样的概念。

具体来说,95%的置信区间就是说,假如我采样100组样本,基于100组不同的样本我可以构建出100个不同的置信区间。假如其中有95个区间都包含真实值,那么以这种方式构建的区间就是95%的置信区间。就好比套环游戏,我丢出100个大小相同的套环,其中有95个都套中了目标(参数真实值),那么我拿的这种套环就是95%置信套环,那如果我选择另一种稍小的套环,同样扔100次,套中90次,那么这种小size的套环就是90%置信套环。(开个玩笑,置信套环是我瞎编的,但我相信大家应该能明白我的意思)

Credible Interval

可信区间的概念基于贝叶斯学派,他们认为参数应该是一个随机变量。数据的意义在于更新我们对参数分布的初始认知(先验)来获得参数分布的真实情况(后验),基于的框架就是著名的贝叶斯公式。这里就不展开了。

现在我们顺着这个思路去思考可信区间的概念。既然假定参数是一个随机变量,遵从某种分布,那么我们应该如何定义95%可信区间呢?一个非常直觉的想法就是选定某个区间,使该区间的累积概率分布值为0.95就行了,也就是说该参数有95%的概率是在个区间内的。没错,这个想法已经很接近了,但是还有一个问题就是,我们应该可以获取无限组这样的区间,那么具体应该选择哪一个作为目标的可信区间呢?答案就是区间长度最短的那一个。比如当参数服从高斯分布的时候,95%的可信区间就是以均值为轴,向两侧同时展开直到累积概率为0.95时,以此时左右两侧为区间左右侧构成的区间。

事实上,可信区间的概念更加符合人们对参数真实值有xxx%的概率属于某个区间的认知。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值