Dirichlet distribution
在统计学中,Dirichlet distribution 常被记为 D i r ( α ) Dir(\alpha) Dir(α),在贝叶斯统计中, Dirichlet distribution 经常被用作先验分布,事实上dirichlet distribution是分类分布(categorical distribution)和多项分布(multinomial distribution)的共轭先验。
Definitions
probability density function
参数为
α
1
,
.
.
.
α
k
>
0
\alpha_1,... \alpha_k>0
α1,...αk>0的
K
≥
2
K\ge2
K≥2阶的狄利克雷分布具有关于欧几里得空间
R
k
−
1
R^{k-1}
Rk−1上的勒贝格测度的概率密度函数:
f
(
x
1
,
.
.
.
,
x
k
;
α
1
,
.
.
.
,
α
k
)
=
1
B
(
α
)
∏
i
=
1
K
x
i
α
i
−
1
∑
i
K
x
i
=
1
,
x
i
∈
[
0
,
1
]
f
o
r
a
l
l
i
∈
1
,
.
.
,
K
归一化常数是多变量
B
e
t
a
函数,
B
(
α
)
=
∏
i
=
1
k
Γ
(
α
i
)
Γ
(
∑
i
K
α
i
)
,
α
=
(
α
1
,
.
.
.
,
α
k
)
f(x_1,...,x_k;\alpha_1,...,\alpha_k) = \frac{1}{\Beta(\alpha)}\prod_{i=1}^{K}x_{i}^{\alpha_i-1}\\ \sum_{i}^{K}x_i =1,x_i \in [0,1] for \ all\ i\in {1,..,K}\\ 归一化常数是多变量 Beta 函数, \Beta(\alpha)= \frac{\prod_{i=1}^{k}\Gamma(\alpha_i)}{\Gamma(\sum_{i}^{K}\alpha_i)},\ \alpha = (\alpha_1,...,\alpha_k)
f(x1,...,xk;α1,...,αk)=B(α)1i=1∏Kxiαi−1i∑Kxi=1,xi∈[0,1]for all i∈1,..,K归一化常数是多变量Beta函数,B(α)=Γ(∑iKαi)∏i=1kΓ(αi), α=(α1,...,αk)
性质(Properties)
均值和方差
X
=
(
x
1
,
.
.
.
,
x
k
)
∼
D
i
r
(
α
)
X = (x_1,...,x_k) \sim Dir(\alpha)
X=(x1,...,xk)∼Dir(α) ,记
α
0
=
∑
i
=
1
K
α
i
\alpha_0= \sum_{i=1}^{K}\alpha_i
α0=∑i=1Kαi
则均值
E
(
x
i
)
=
α
i
α
0
E(x_i)=\frac{\alpha_i}{\alpha_0}
E(xi)=α0αi,
方差 V a r ( x i ) = α i ( α 0 − α i ) α 0 2 ( α 0 + 1 ) Var(x_i)=\frac{\alpha_i(\alpha_0-\alpha_i)}{\alpha_0^2(\alpha_0+1)} Var(xi)=α02(α0+1)αi(α0−αi)
边际分布 (Marginal distributions)
狄利克雷分布的边际分布是Beta分布
x
i
∼
B
(
α
i
,
α
0
−
α
i
)
x_i \sim \Beta(\alpha_i,\alpha_0-\alpha_i)
xi∼B(αi,α0−αi)
共轭与分类分布或多项分布(conjugate to categorical or multinomial)
狄利克雷分布是分类分布和多项分布的共轭先验分布。这意味着如果数据点具有分类分布或者多项式分布,并且分布参数(生成数据点的概率向量)的先验分布是狄利克雷分布,则参数的后验分布也是狄利克雷分布。从直觉上来理解,在这种情况下,在没有获得观测数据点时,我们对参数的了解是此参数服从狄利克雷分布(参数的先验分布),然后我们根据获得的数据点来更新我们对参数的认知,并最终得到与旧分布相同的新分布(参数的后验分布)。用数学模型表示就是:
α
=
(
α
1
,
.
.
.
,
α
K
)
p
∣
α
=
(
p
1
,
.
.
.
,
p
K
)
∼
D
i
r
(
K
,
α
)
(
先验分布)
X
∣
p
=
(
x
1
,
.
.
.
,
x
K
)
∼
C
a
t
(
K
,
p
)
t
h
e
n
t
h
e
f
o
l
l
o
w
i
n
g
h
o
l
d
s
:
c
=
(
c
1
,
.
.
.
,
c
K
)
=
分类
i
出现的次数
p
∣
X
,
α
∼
D
i
r
(
K
,
c
+
α
)
=
D
i
r
(
K
,
c
1
+
α
1
,
.
.
.
,
c
k
+
α
K
)
(后验分布)
\begin{aligned} \alpha &= (\alpha_1,...,\alpha_K)\\ p|\alpha &= (p_1,...,p_K) \sim Dir(K,\alpha) (先验分布)\\ X|p &= (x_1,...,x_K) \sim Cat(K,p)\\ then \ the \ following\ holds:\\ c &= (c_1,...,c_K) = 分类i出现的次数\\ p|X,\alpha &\sim Dir(K,c+\alpha) = Dir(K,c_1+\alpha_1,...,c_k+\alpha_K)(后验分布) \end{aligned}
αp∣αX∣pthen the following holds:cp∣X,α=(α1,...,αK)=(p1,...,pK)∼Dir(K,α)(先验分布)=(x1,...,xK)∼Cat(K,p)=(c1,...,cK)=分类i出现的次数∼Dir(K,c+α)=Dir(K,c1+α1,...,ck+αK)(后验分布)
更多性质请参考:
https://en.wikipedia.org/wiki/Dirichlet_distribution