贝叶斯推断
1、背景
概率论中频率学派(frequentist)与贝叶斯学派(bayeser)关于概率对象的分配是存在歧义的。频率学派认为,仅有数据样本服从概率分布,而参数是数值未知的固定值,其P值及置信区间是基于长期重复采样下的频率特性。而贝叶斯学派认为,无论是数据或是参数都是可以具有概率分布的,因而贝叶斯定理可用于了解不可观测的参数概率以及可观测的数据样本。
2、基础知识
贝叶斯定理:
P
(
A
∣
B
)
=
P
(
A
)
⋅
P
(
B
∣
A
)
P
(
A
)
P(A|B)=\frac{P(A) \cdot P(B|A)}{P(A)}
P(A∣B)=P(A)P(A)⋅P(B∣A)
3、贝叶斯推断-理论
已知样本数据
y
=
(
y
1
,
y
2
,
⋯
,
y
n
)
\bm{y}=(y_{1},y_{2},\cdots,y_{n})
y=(y1,y2,⋯,yn),求解参数
θ
\bm{\theta}
θ的贝叶斯估计。参数
θ
\bm{\theta}
θ和数据样本
y
\bm{y}
y的联合分布
P
(
y
,
θ
)
P(\bm{y},\bm{\theta})
P(y,θ)可以分解为
P
(
θ
)
P(\bm{\theta})
P(θ)与
P
(
y
∣
θ
)
P(\bm{y}|\bm{\theta})
P(y∣θ)的乘积。故条件密度
P
(
θ
∣
y
)
P(\bm{\theta}|\bm{y})
P(θ∣y)可以表达为:
P
(
θ
∣
y
)
=
P
(
y
,
θ
)
P
(
y
)
=
P
(
θ
)
⋅
P
(
y
∣
θ
)
P
(
y
)
P(\bm{\theta}|\bm{y})=\frac{P(\bm{y},\bm{\theta})}{P(\bm{y})}=\frac{P(\bm{\theta}) \cdot P(\bm{y}|\bm{\theta})}{P(\bm{y})}
P(θ∣y)=P(y)P(y,θ)=P(y)P(θ)⋅P(y∣θ)
P
(
θ
∣
y
)
P(\bm{\theta}|\bm{y})
P(θ∣y)是基于样本数据
y
\bm{y}
y的参数
θ
的
\bm{\theta}的
θ的后验概率(密度)。
P
(
θ
)
P(\bm{\theta})
P(θ)是参数
θ
\bm{\theta}
θ的先验分布,该分布是不基于观测样本信息,而是基于样本数据之外的信息,如曾经的经验或是主观的专家建议等,通常认为这部分信息是暂时的且不完成的。
P
(
y
∣
θ
)
P(\bm{y}|\bm{\theta})
P(y∣θ)被认为是
y
\bm{y}
y固定的,关于参数
θ
\bm{\theta}
θ的函数,即似然函数。
P
(
y
)
P(\bm{y})
P(y)是联合分布关于
y
\bm{y}
y的边际分布,通常是使得
P
(
θ
∣
y
)
P(\bm{\theta}|\bm{y})
P(θ∣y)满足概率性质的常数。
4、贝叶斯推断-示例
4.1、问题描述
假设一枚硬币并非质地均匀的,即投掷该枚硬币头朝上的概率并不一定是0.5,令 θ \bm{\theta} θ为头面朝上的概率。实验 N N N次,其中 Y Y Y次,头面朝上,讨论 θ \bm{\theta} θ。
4.2、贝叶斯推断推理过程
4.2.1、先验分布的确定
通常会以
Y
/
N
Y/N
Y/N作为
θ
\bm{\theta}
θ的估计值,但这真的准确么,当
N
=
100
,
Y
=
48
N=100,Y=48
N=100,Y=48时,0.48即是
θ
\bm{\theta}
θ的估计值。但这种情况我们更愿意相信硬币质地是均匀的,因为质地均匀的硬币投掷100次,其中48次朝上是完全有可能的。因而,与其认为
θ
=
0.48
\bm{\theta}=0.48
θ=0.48,贝叶斯学派更愿意假设
θ
\bm{\theta}
θ的先验分布,以进行更进一步的研究。
假设
θ
\bm{\theta}
θ的先验分布是贝塔分布,即:
P
(
θ
)
=
θ
α
−
1
⋅
(
1
−
θ
)
β
−
1
B
(
α
,
β
)
P(\bm{\theta})=\frac{\theta^{\alpha-1}\cdot (1-\theta)^{\beta-1}}{B(\alpha,\beta)}
P(θ)=B(α,β)θα−1⋅(1−θ)β−1
根据贝塔分布性质可知,
E
(
θ
)
=
μ
=
α
α
+
β
E(\theta)=\mu=\frac{\alpha}{\alpha+\beta}
E(θ)=μ=α+βα
V
a
r
(
θ
)
=
σ
2
=
α
⋅
β
(
α
+
β
)
2
⋅
(
α
+
β
+
1
)
Var(\theta)=\sigma^2=\frac{\alpha\cdot \beta}{(\alpha+\beta)^2\cdot (\alpha+\beta+1)}
Var(θ)=σ2=(α+β)2⋅(α+β+1)α⋅β
反解
α
,
β
\alpha,\beta
α,β:
α
=
(
1
−
μ
σ
2
−
1
μ
)
⋅
μ
2
\alpha=(\frac{1-\mu}{\sigma^2}-\frac{1}{\mu})\cdot \mu^2
α=(σ21−μ−μ1)⋅μ2
β
=
α
⋅
(
1
μ
−
1
)
\beta=\alpha\cdot (\frac{1}{\mu}-1)
β=α⋅(μ1−1)
可以根据反解公式依据我们喜欢的期望方差性质设定
α
,
β
\alpha,\beta
α,β。
4.2.2、由先验推后验
投掷硬币头朝上的随机服从伯努利分布
B
(
n
,
θ
)
B(n,\theta)
B(n,θ),即数据样本似然分布是:
P
(
y
∣
θ
)
=
C
n
y
⋅
θ
y
⋅
(
1
−
θ
)
n
−
y
P(\bm{y}|\bm{\theta})=C_n^y\cdot \theta^y\cdot (1-\theta)^{n-y}
P(y∣θ)=Cny⋅θy⋅(1−θ)n−y
现根据先验分布,从样本数据中学习后验分布,利用贝叶斯定理可知:
P
(
θ
∣
y
)
=
P
(
θ
)
⋅
P
(
y
∣
θ
)
∫
P
(
y
,
θ
)
d
θ
P(\bm{\theta}|\bm{y})=\frac{P(\bm{\theta}) \cdot P(\bm{y}|\bm{\theta})}{\int{P(\bm{y},\bm{\theta})d\bm{\theta}}}
P(θ∣y)=∫P(y,θ)dθP(θ)⋅P(y∣θ)
将先验分布及似然分布带入分子即有:
P
(
θ
)
⋅
P
(
y
∣
θ
)
=
θ
α
−
1
⋅
(
1
−
θ
)
β
−
1
B
(
α
,
β
)
⋅
C
n
y
⋅
θ
y
⋅
(
1
−
θ
)
n
−
y
=
C
n
y
⋅
θ
α
+
y
−
1
⋅
(
1
−
θ
)
β
+
n
−
y
−
1
B
(
α
,
β
)
P(\bm{\theta}) \cdot P(\bm{y}|\bm{\theta})=\frac{\theta^{\alpha-1}\cdot (1-\theta)^{\beta-1}}{B(\alpha,\beta)}\cdot C_n^y\cdot \theta^y\cdot (1-\theta)^{n-y}=C_n^y\cdot \frac{\theta^{\alpha+y-1}\cdot (1-\theta)^{\beta+n-y-1}}{B(\alpha,\beta)}
P(θ)⋅P(y∣θ)=B(α,β)θα−1⋅(1−θ)β−1⋅Cny⋅θy⋅(1−θ)n−y=Cny⋅B(α,β)θα+y−1⋅(1−θ)β+n−y−1
将先验分布及似然分布带入分布有:
∫
P
(
y
,
θ
)
d
θ
=
∫
C
n
y
⋅
θ
α
+
y
−
1
⋅
(
1
−
θ
)
β
+
n
−
y
−
1
B
(
α
,
β
)
d
θ
=
C
n
y
B
(
α
,
β
)
⋅
∫
θ
α
+
y
−
1
⋅
(
1
−
θ
)
β
+
n
−
y
−
1
d
θ
=
C
n
y
⋅
B
(
α
+
y
,
β
+
n
−
y
)
B
(
α
,
β
)
\int{P(\bm{y},\bm{\theta})d\bm{\theta}}=\int{C_n^y\cdot \frac{\theta^{\alpha+y-1}\cdot (1-\theta)^{\beta+n-y-1}}{B(\alpha,\beta)}d\theta}=\frac{C_n^y}{B(\alpha,\beta)}\cdot \int{\theta^{\alpha+y-1}\cdot (1-\theta)^{\beta+n-y-1}d\theta}=C_n^y\cdot \frac{B(\alpha+y,\beta+n-y)}{B(\alpha,\beta)}
∫P(y,θ)dθ=∫Cny⋅B(α,β)θα+y−1⋅(1−θ)β+n−y−1dθ=B(α,β)Cny⋅∫θα+y−1⋅(1−θ)β+n−y−1dθ=Cny⋅B(α,β)B(α+y,β+n−y)
分子分母带入贝叶斯公式,即有:
P
(
θ
∣
y
)
=
θ
α
+
y
−
1
⋅
(
1
−
θ
)
β
+
n
−
y
−
1
B
(
α
+
y
,
β
+
n
−
y
)
P(\bm{\theta}|\bm{y})=\frac{\theta^{\alpha+y-1}\cdot (1-\theta)^{\beta+n-y-1}}{B(\alpha+y,\beta+n-y)}
P(θ∣y)=B(α+y,β+n−y)θα+y−1⋅(1−θ)β+n−y−1
后验分布
P
(
θ
∣
y
)
P(\bm{\theta}|\bm{y})
P(θ∣y)服从分布
B
e
t
a
(
α
+
y
,
β
+
n
−
y
)
Beta(\alpha+y,\beta+n-y)
Beta(α+y,β+n−y)。
4.3贝叶斯推断结果
后验分布 P ( θ ∣ y ) P(\bm{\theta}|\bm{y}) P(θ∣y)代表了基于观测数据 y \bm{y} y的参数 θ \bm{\theta} θ的全部信息,我们任何关于 θ \bm{\theta} θ的说法都须基于该后验分布。如我们可以将后验分布的期望、中位数、众数作为参数 θ \bm{\theta} θ的点估计。当然我们也可以寻找参数 θ \bm{\theta} θ的区间估计,我们称 θ \bm{\theta} θ的可信区间(credible interval),如可信度为95%的可信区间 [ a , b ] [a,b] [a,b],代表参数落入该区间的可能性为95%。可信区间不同于置信区间(confidence interval),置信区间含义是,重复采样平均情况下,仅有95%的情况下置信区间会包含该参数估计。
5、后记
先验分布的选取通常是有技巧的,常常选取先验分布与后验分布具有相同类型,称为共轭先验,例如示例中,先验分布为贝塔分布,在似然分布是二项分布时,后验分布也是贝塔分布,即成贝塔分布在似然分布是二项分布时是共轭先验分布。选择共轭先验分布,会使得在求解后验分布表达式时的积分值易于求解。
6、参考
本文来自家教学生的课程知识(decision and risk),若有侵权请及时联系,本人立即删改。本文由英文版本经本作者加工理解而写,仅供本人自己学习所用,不准勿喷。