那些年我做家教学过的东西_决策与风险decision and risk_1_贝叶斯推断Bayes Inference

最新推荐文章于 2024-10-01 18:25:47 发布

谈什么恋爱，学习

最新推荐文章于 2024-10-01 18:25:47 发布

阅读量210

点赞数

文章标签：概率论

本文链接：https://blog.csdn.net/weixin_45692006/article/details/106184691

版权

贝叶斯推断

1、背景

概率论中频率学派(frequentist)与贝叶斯学派(bayeser)关于概率对象的分配是存在歧义的。频率学派认为，仅有数据样本服从概率分布，而参数是数值未知的固定值，其P值及置信区间是基于长期重复采样下的频率特性。而贝叶斯学派认为，无论是数据或是参数都是可以具有概率分布的，因而贝叶斯定理可用于了解不可观测的参数概率以及可观测的数据样本。

2、基础知识

贝叶斯定理：
$P(A|B)=\frac{P(A) \cdot P(B|A)}{P(A)}$

3、贝叶斯推断-理论

已知样本数据 $\bm{y}=(y_{1},y_{2},\cdots,y_{n})$ ，求解参数 $\bm{\theta}$ 的贝叶斯估计。参数 $\bm{\theta}$ 和数据样本 $\bm{y}$ 的联合分布 $P(\bm{y},\bm{\theta})$ 可以分解为 $P(\bm{\theta})$ 与 $P(\bm{y}|\bm{\theta})$ 的乘积。故条件密度 $P(\bm{\theta}|\bm{y})$ 可以表达为：
$P(\bm{\theta}|\bm{y})=\frac{P(\bm{y},\bm{\theta})}{P(\bm{y})}=\frac{P(\bm{\theta}) \cdot P(\bm{y}|\bm{\theta})}{P(\bm{y})}$
$P(\bm{\theta}|\bm{y})$ 是基于样本数据 $\bm{y}$ 的参数 $\bm{\theta}的$ 后验概率（密度）。
$P(\bm{\theta})$ 是参数 $\bm{\theta}$ 的先验分布，该分布是不基于观测样本信息，而是基于样本数据之外的信息，如曾经的经验或是主观的专家建议等，通常认为这部分信息是暂时的且不完成的。
$P(\bm{y}|\bm{\theta})$ 被认为是 $\bm{y}$ 固定的，关于参数 $\bm{\theta}$ 的函数，即似然函数。
$P(\bm{y})$ 是联合分布关于 $\bm{y}$ 的边际分布，通常是使得 $P(\bm{\theta}|\bm{y})$ 满足概率性质的常数。

4、贝叶斯推断-示例

4.1、问题描述

假设一枚硬币并非质地均匀的，即投掷该枚硬币头朝上的概率并不一定是0.5，令 $\bm{\theta}$ 为头面朝上的概率。实验 $N$ 次，其中 $Y$ 次，头面朝上，讨论 $\bm{\theta}$ 。

4.2、贝叶斯推断推理过程

4.2.1、先验分布的确定

通常会以 $Y / N$ 作为 $\bm{\theta}$ 的估计值，但这真的准确么，当 $N = 100, Y = 48$ 时，0.48即是 $\bm{\theta}$ 的估计值。但这种情况我们更愿意相信硬币质地是均匀的，因为质地均匀的硬币投掷100次，其中48次朝上是完全有可能的。因而，与其认为 $\bm{\theta}=0.48$ ，贝叶斯学派更愿意假设 $\bm{\theta}$ 的先验分布，以进行更进一步的研究。
假设 $\bm{\theta}$ 的先验分布是贝塔分布，即：
$P(\bm{\theta})=\frac{\theta^{\alpha-1}\cdot (1-\theta)^{\beta-1}}{B(\alpha,\beta)}$
根据贝塔分布性质可知，
$E(\theta)=\mu=\frac{\alpha}{\alpha+\beta}$
$Var(\theta)=\sigma^2=\frac{\alpha\cdot \beta}{(\alpha+\beta)^2\cdot (\alpha+\beta+1)}$
反解 $\alpha,\beta$ :
$\alpha=(\frac{1-\mu}{\sigma^2}-\frac{1}{\mu})\cdot \mu^2$
$\beta=\alpha\cdot (\frac{1}{\mu}-1)$
可以根据反解公式依据我们喜欢的期望方差性质设定 $\alpha,\beta$ 。

4.2.2、由先验推后验

投掷硬币头朝上的随机服从伯努利分布 $B(n,\theta)$ ，即数据样本似然分布是:
$P(\bm{y}|\bm{\theta})=C_n^y\cdot \theta^y\cdot (1-\theta)^{n-y}$
现根据先验分布，从样本数据中学习后验分布，利用贝叶斯定理可知：
$P(\bm{\theta}|\bm{y})=\frac{P(\bm{\theta}) \cdot P(\bm{y}|\bm{\theta})}{\int{P(\bm{y},\bm{\theta})d\bm{\theta}}}$
将先验分布及似然分布带入分子即有：
$P(\bm{\theta}) \cdot P(\bm{y}|\bm{\theta})=\frac{\theta^{\alpha-1}\cdot (1-\theta)^{\beta-1}}{B(\alpha,\beta)}\cdot C_n^y\cdot \theta^y\cdot (1-\theta)^{n-y}=C_n^y\cdot \frac{\theta^{\alpha+y-1}\cdot (1-\theta)^{\beta+n-y-1}}{B(\alpha,\beta)}$
将先验分布及似然分布带入分布有：
$\int{P(\bm{y},\bm{\theta})d\bm{\theta}}=\int{C_n^y\cdot \frac{\theta^{\alpha+y-1}\cdot (1-\theta)^{\beta+n-y-1}}{B(\alpha,\beta)}d\theta}=\frac{C_n^y}{B(\alpha,\beta)}\cdot \int{\theta^{\alpha+y-1}\cdot (1-\theta)^{\beta+n-y-1}d\theta}=C_n^y\cdot \frac{B(\alpha+y,\beta+n-y)}{B(\alpha,\beta)}$
分子分母带入贝叶斯公式，即有：
$P(\bm{\theta}|\bm{y})=\frac{\theta^{\alpha+y-1}\cdot (1-\theta)^{\beta+n-y-1}}{B(\alpha+y,\beta+n-y)}$
后验分布 $P(\bm{\theta}|\bm{y})$ 服从分布 $Beta(\alpha+y,\beta+n-y)$ 。

4.3贝叶斯推断结果

后验分布 $P(\bm{\theta}|\bm{y})$ 代表了基于观测数据 $\bm{y}$ 的参数 $\bm{\theta}$ 的全部信息，我们任何关于 $\bm{\theta}$ 的说法都须基于该后验分布。如我们可以将后验分布的期望、中位数、众数作为参数 $\bm{\theta}$ 的点估计。当然我们也可以寻找参数 $\bm{\theta}$ 的区间估计，我们称 $\bm{\theta}$ 的可信区间(credible interval)，如可信度为95%的可信区间 $[a, b]$ ，代表参数落入该区间的可能性为95%。可信区间不同于置信区间(confidence interval)，置信区间含义是，重复采样平均情况下，仅有95%的情况下置信区间会包含该参数估计。