(B站)白板推导系列学习笔记(第一节)
频率派VS贝叶斯派
该节介绍了频率派和贝叶斯派的异同和应用点,内容来源于b站up主shuhuai008。
机器学习中的统计问题
在一些典型的机器学习问题中,我们常常会遇到样本X和参数
θ
\theta
θ, 样本X作为观察到的信息,通常是一个矩阵形式:
[
x
11
x
12
⋯
x
1
n
x
21
x
22
⋯
x
2
n
⋮
⋮
⋯
⋮
x
n
1
x
n
2
⋯
x
n
n
]
\begin{bmatrix} x_{11} &x_{12} &\cdots &x_{1n} \\ x_{21} &x_{22} &\cdots &x_{2n} \\ \vdots &\vdots &\cdots &\vdots \\ x_{n1} &x_{n2} &\cdots &x_{nn} \end{bmatrix}
⎣⎢⎢⎢⎡x11x21⋮xn1x12x22⋮xn2⋯⋯⋯⋯x1nx2n⋮xnn⎦⎥⎥⎥⎤,然后我们要根据样本来估计参数
θ
\theta
θ,然后根据概率公式
P
(
x
∣
θ
)
P(x | \theta)
P(x∣θ)进行预测。
频率派
频率派是根据极大似然估计(Maximum Likelihood Estimate,MLE)来预测
θ
\theta
θ,他们认为参数
θ
\theta
θ是一个未知的常量, 计算公式为:
θ
=
a
r
g
m
a
x
θ
(
l
o
g
P
(
x
∣
θ
)
)
\theta = \underset{\theta}{argmax}(logP(x|\theta))
θ=θargmax(logP(x∣θ))
添加log的原因是这样可以把连乘变成连加,方便计算。
贝叶斯派
贝叶斯学派认为参数
θ
\theta
θ不是一个常量,它也是一个变量,同样的服从一个分布,这里假设为
P
(
θ
)
P(\theta)
P(θ), 称为先验概率。
然后后我们可以得到如下公式:
P
(
θ
∣
x
)
=
P
(
x
∣
θ
)
P
(
θ
)
P
(
x
)
P(\theta|x) = \frac{P(x|\theta)P(\theta)}{P(x)}
P(θ∣x)=P(x)P(x∣θ)P(θ)
其中
P
(
θ
∣
x
)
P(\theta|x)
P(θ∣x)是后验概率,
P
(
x
)
=
∫
θ
P
(
x
∣
θ
)
P
(
θ
)
d
θ
P(x)=\int _{\theta}P(x|\theta)P(\theta)d\theta
P(x)=∫θP(x∣θ)P(θ)dθ是
x
x
x的分布,得到后验之后我们便可以得到参数
θ
\theta
θ,用的思想和MLE类似,取后验概率中最大的参数
θ
\theta
θ即可,即
θ
=
a
r
g
m
a
x
θ
P
(
θ
∣
x
)
\theta=\underset{\theta}{argmax}P(\theta|x)
θ=θargmaxP(θ∣x)。
上面也称为最大后验估计,但不等同于贝叶斯估计。贝叶斯估计就是求
P
(
θ
∣
x
)
=
P
(
x
∣
θ
)
P
(
θ
)
∫
θ
P
(
x
∣
θ
)
P
(
θ
)
d
θ
P(\theta|x)= \frac{P(x|\theta)P(\theta)}{\int _{\theta}P(x|\theta)P(\theta)d\theta}
P(θ∣x)=∫θP(x∣θ)P(θ)dθP(x∣θ)P(θ),然后利用该后验可以进行贝叶斯预测,假设有一个新的样本点
x
~
\tilde{x}
x~,贝叶斯预测就是求
x
~
\tilde{x}
x~在样本
X
X
X下的概率
P
(
x
~
∣
X
)
P(\tilde{x}|X)
P(x~∣X),在这里我们充分利用先验的信息,用参数
θ
\theta
θ沟通起来
x
~
\tilde{x}
x~和
X
X
X,得到概率公式
P
(
x
~
∣
X
)
=
∫
θ
P
(
x
~
,
θ
∣
X
)
d
θ
=
∫
θ
P
(
x
~
∣
θ
)
P
(
θ
∣
x
)
d
θ
P(\tilde{x} | X)=\int_{\theta}P(\tilde{x}, \theta|X)d\theta=\int_{\theta}P(\tilde{x}|\theta)P(\theta|x)d\theta
P(x~∣X)=∫θP(x~,θ∣X)dθ=∫θP(x~∣θ)P(θ∣x)dθ.
总结
频率派跟统计机器学习方法关系比较密切,主要跟机器学习方法的优化模型相关,贝叶斯模型则是与概率图模型相关,本质就是求积分,由于在实际问题中分布不好求出,可以利用一些采样方法近似分布来求积分,比如MCMC(马尔可夫链蒙塔卡罗)采样方法