频率派 vs 贝叶斯派
- X:data ->
X
=
(
x
1
,
x
2
,
.
.
.
,
x
N
)
N
∗
P
T
X = (x_1, x_2, ..., x_N)^T_{N*P}
X=(x1,x2,...,xN)N∗PT
- θ \theta θ:parameter
- 假设 x ∽ p ( x ∣ θ ) x{\backsim}p(x|\theta) x∽p(x∣θ):x服从 p ( x ∣ θ ) p(x|\theta) p(x∣θ),这是概率模型
频率学派
- 频率派认为: θ \theta θ是一个未知的常量,X是一个随机变量;关心的数据,需要估计 θ {\theta} θ,常用极大似然估计: θ M L E = arg max θ l o g P ( x ∣ θ ) {\theta}_{MLE}={\argmax_\theta}logP(x|\theta) θMLE=θargmaxlogP(x∣θ) = arg max θ £ ( θ ) \argmax_\theta{\pounds(\theta)} θargmax£(θ)
- 每个样本 x i x_i xi独立同分布(iid)服从 P ( x ∣ θ ) P(x|\theta) P(x∣θ), P ( X ∣ θ ) P(X|\theta) P(X∣θ) = ∏ i = 1 n P ( x i ∣ θ ) \prod_{i=1}^nP(x_i|\theta) ∏i=1nP(xi∣θ),加上log用于简化运算。
- 频率派->统计机器学习->最优化问题:1、设计模型;2、定义loss function; 3、梯度下降。
贝叶斯学派
- 贝叶斯学派认为: θ \theta θ也是一个随机变量, θ ∽ p ( θ ) \theta\backsim{p(\theta)} θ∽p(θ), p ( θ ) p(\theta) p(θ)一般称为先验。借助贝叶斯定理,把参数的先验和后验用似然联系起来。
- 贝叶斯定理:
- MAP(最大后验概率估计):
θ
M
A
P
=
arg max
θ
P
(
θ
∣
x
)
=
arg max
θ
P
(
x
∣
θ
)
P
(
θ
)
\theta_{MAP}=\argmax_{\theta}P(\theta|x)=\argmax_{\theta}P(x|\theta)P(\theta)
θMAP=θargmaxP(θ∣x)=θargmaxP(x∣θ)P(θ)
- 贝叶斯预测:X,来了个新样本
x
p
x_p
xp,预测问题就是要求:
- 贝叶斯->概率图模型,最重要的就是求积分。