Introduction
对概率的诠释有两大学派,一种是贝叶斯派,一种是概率派。对于观测到的样本,我们以后均采用下面的标记:
X
=
(
x
1
,
x
2
,
.
.
.
x
n
)
T
=
(
x
11
x
12
.
.
.
x
1
p
x
21
x
22
.
.
.
x
2
p
.
.
.
x
N
1
x
N
2
.
.
.
x
N
p
s
)
N
∗
p
X = (x_1,x_2, ...x_n)^{T}=\begin{pmatrix} x_{11} &x_{12} &... &x_{1p} \\ x_{21}&x_{22} & ... &x_{2p} \\ ...& & & \\ x_{N1}&x_{N2} &... &x_{Np}s \end{pmatrix}_{N*p}
X=(x1,x2,...xn)T=⎝⎜⎜⎛x11x21...xN1x12x22xN2.........x1px2pxNps⎠⎟⎟⎞N∗p
其中,每一个样本
x
i
x_{i}
xi都是p维的向量,一共有N个样本。每个样本都由p
(
x
∣
θ
)
(x|\theta)
(x∣θ)产生,
θ
\theta
θ是隐含的参数。
频率派的观点
频率派认为,在样本产生的过程中,参数
θ
\theta
θ是一个常量。对N个样本来说,
p
(
X
∣
θ
)
=
iid
∏
i
=
1
N
p
(
x
i
∣
θ
)
p(X|\theta) \underset{\text{iid}}{=}\prod_{i=1}^{N}p(x_i|\theta)
p(X∣θ)iid=∏i=1Np(xi∣θ)。参数
θ
\theta
θ可以用最大对数似然MLE来产生:
KaTeX parse error: No such environment: split at position 8: \begin{̲s̲p̲l̲i̲t̲}̲ \theta_{MLE}&=…
贝叶斯派的观点
贝叶斯派认为参数
θ
\theta
θ服从预设的先验分布x~
p
(
θ
)
p(\theta)
p(θ)。于是根据贝叶斯定理依赖观测集参数的后验可以写成:
p
(
θ
∣
X
)
=
p
(
X
∣
θ
)
p
(
θ
)
p
(
X
)
=
p
(
X
∣
θ
)
p
(
θ
)
∫
p
(
X
∣
θ
)
p
(
θ
)
d
θ
p(\theta|X)=\frac{p(X|\theta)p(\theta)}{p(X)}=\frac{p(X|\theta)p(\theta)}{\int p(X|\theta)p(\theta)d\theta}
p(θ∣X)=p(X)p(X∣θ)p(θ)=∫p(X∣θ)p(θ)dθp(X∣θ)p(θ)
后验概率
p
(
θ
∣
X
)
p(\theta|X)
p(θ∣X)最大的可能是后验
θ
\theta
θ中的众数,也就是
p
(
θ
∣
X
)
p(\theta|X)
p(θ∣X)最大值时的
θ
\theta
θ的值,即:
a
r
g
m
a
x
θ
p
(
θ
∣
X
)
\mathop{argmax}_{\theta} p(\theta|X)
argmaxθp(θ∣X)
所以,参数
θ
\theta
θ的后验为:
θ
M
A
P
=
a
r
g
m
a
x
θ
p
(
θ
∣
X
)
=
a
r
g
m
a
x
θ
p
(
X
∣
θ
)
p
(
θ
)
\theta_{MAP}=\mathop{argmax}_{\theta}p(\theta|X)=\mathop{argmax}_{\theta}p(X|\theta)p(\theta)
θMAP=argmaxθp(θ∣X)=argmaxθp(X∣θ)p(θ)
其中,
∫
p
(
θ
∣
X
)
p
(
θ
)
d
θ
\int p(\theta|X)p(\theta)d\theta
∫p(θ∣X)p(θ)dθ是一个固定的值,在
a
r
g
m
a
x
\mathop{argmax}_{}
argmax运算中可以省略。
p
(
X
∣
θ
)
p(X|\theta)
p(X∣θ)为似然,
p
(
θ
)
p(\theta)
p(θ)为先验分布。
求出后验概率
p
(
θ
)
p(\theta)
p(θ)以后,可以求出贝叶斯估计的确定的值:
p
(
θ
∣
X
)
=
p
(
X
∣
θ
)
p
(
θ
)
∫
p
(
X
∣
θ
)
p
(
θ
)
d
θ
p(\theta|X)=\frac{p(X|\theta)p(\theta)}{\int p(X|\theta)p(\theta)d\theta}
p(θ∣X)=∫p(X∣θ)p(θ)dθp(X∣θ)p(θ)
贝叶斯估计可用于求贝叶斯预测:已知原数据X,求出新的样本
x
~
\widetilde{x}
x
的概率
p
(
x
~
∣
X
)
p(\widetilde{x}|X)
p(x
∣X)。
KaTeX parse error: No such environment: split at position 8: \begin{̲s̲p̲l̲i̲t̲}̲ p(\widetilde{x…
其中,(在参数
θ
\theta
θ已知的情况下)
x
~
\widetilde{x}
x
与
X
X
X相互独立;
p
(
x
~
∣
θ
)
p(\widetilde{x}|\theta)
p(x
∣θ)是模型,
p
(
θ
∣
X
)
p(\theta|X)
p(θ∣X)是后验分布。
小结
频率派和贝叶斯派分别给出了一系列的机器学习算法。频率派的观点导出了一系列的统计机器学习算法而贝叶斯派导出了概率图理论。在应用频率派的 MLE 方法时最优化理论占有重要地位。而贝叶斯派的算法无论是后验概率的建模还是应用这个后验进行推断时积分占有重要地位。因此采样积分方法如 MCMC、蒙特卡罗有很多应用。