彻底理解confidence interval和credible interval

最新推荐文章于 2022-07-06 18:48:16 发布

胡小白的数据科学之路

最新推荐文章于 2022-07-06 18:48:16 发布

阅读量5.2k

点赞数 2

分类专栏：统计与概率论文章标签：统计学

本文链接：https://blog.csdn.net/weixin_44607838/article/details/118031584

版权

统计与概率论专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Confidence Interval

也就是我们熟知的置信区间，比如我们常见的95%置信区间。那么究竟该如何理解这个置信区间呢？首先，我们需要明确一点，置信区间的概念是基于频率学派的，他们认为参数的真实值应该是固定的（但是我们不知道）。因此他们的做法就是通过不断的采样来构造参数估计的区间，以期望这个区间能够包含真实的参数值。事实上，置信区间就是这样一个基于采样的概念。

具体来说，95%的置信区间就是说，假如我采样100组样本，基于100组不同的样本我可以构建出100个不同的置信区间。假如其中有95个区间都包含真实值，那么以这种方式构建的区间就是95%的置信区间。就好比套环游戏，我丢出100个大小相同的套环，其中有95个都套中了目标（参数真实值），那么我拿的这种套环就是95%置信套环，那如果我选择另一种稍小的套环，同样扔100次，套中90次，那么这种小size的套环就是90%置信套环。（开个玩笑，置信套环是我瞎编的，但我相信大家应该能明白我的意思）

Credible Interval

可信区间的概念基于贝叶斯学派，他们认为参数应该是一个随机变量。数据的意义在于更新我们对参数分布的初始认知（先验）来获得参数分布的真实情况（后验），基于的框架就是著名的贝叶斯公式。这里就不展开了。

现在我们顺着这个思路去思考可信区间的概念。既然假定参数是一个随机变量，遵从某种分布，那么我们应该如何定义95%可信区间呢？一个非常直觉的想法就是选定某个区间，使该区间的累积概率分布值为0.95就行了，也就是说该参数有95%的概率是在个区间内的。没错，这个想法已经很接近了，但是还有一个问题就是，我们应该可以获取无限组这样的区间，那么具体应该选择哪一个作为目标的可信区间呢？答案就是区间长度最短的那一个。比如当参数服从高斯分布的时候，95%的可信区间就是以均值为轴，向两侧同时展开直到累积概率为0.95时，以此时左右两侧为区间左右侧构成的区间。

事实上，可信区间的概念更加符合人们对参数真实值有xxx%的概率属于某个区间的认知。