1. 资料介绍
1.1 书籍推荐
注:每本书各有侧重点,并没有一本书能全方位覆盖
侧重于频率派——统计机器学习:
- 李航《统计学习方法》
- 周志华《机器学习》
- 《elements of statistical learning》
侧重于贝叶斯派——概率图模型
- 周志华《机器学习》
- 《pattern recognition and machine learning》(PRML)
- 《machine learning:a probabilistic perspective》MLAPP
另有一本”圣经“:《deep learning》
1.2 视频推荐
- 台大林轩田 基石+技法
- 张志华:机器学习导论+统计机器学习
- Ng:CS229
- 徐亦达:概率模型
- 台大李宏毅:机器学习
2. 频率派v.s.贝叶斯派
datas:
X
=
(
x
1
,
x
2
,
…
,
x
n
)
n
×
p
T
=
(
x
11
,
x
12
…
,
x
1
p
x
21
,
x
22
…
,
x
2
p
⋮
x
n
1
,
x
n
2
…
,
x
n
p
)
X=(x_1,x_2,\dotsc,x_n)^T_{n\times p}=\begin{pmatrix}x_{11},x_{12}\dotsc,x_{1p}\\x_{21},x_{22}\dotsc,x_{2p}\\ \vdots\\x_{n1},x_{n2}\dotsc,x_{np}\end{pmatrix}
X=(x1,x2,…,xn)n×pT=⎝⎜⎜⎜⎛x11,x12…,x1px21,x22…,x2p⋮xn1,xn2…,xnp⎠⎟⎟⎟⎞
parameter:
θ
\theta
θ
x
i
∽
p
(
x
i
∣
θ
)
x_i\backsim p(x_i|\theta)
xi∽p(xi∣θ)
频率派的观点:参数
θ
\theta
θ是未知常量,数据
X
X
X是一个随机变量(r.v.)。
对参数
θ
\theta
θ进行极大似然估计:
θ
M
L
E
=
a
r
g
max
θ
ℓ
(
θ
)
=
a
r
g
max
θ
log
P
(
x
∣
θ
)
=
a
r
g
max
θ
log
∏
i
=
1
n
p
(
x
i
∣
θ
)
=
a
r
g
max
θ
∑
i
=
1
n
log
p
(
x
i
∣
θ
)
\theta_{MLE}=arg\max_{\theta}\ell(\theta)=arg\max_{\theta}\log P(x|\theta)=\\arg\max_{\theta}\log\prod_{i=1}^{n} p(x_i|\theta)=arg\max_{\theta}\sum_{i=1}^{n} \log p(x_i|\theta)
θMLE=argθmaxℓ(θ)=argθmaxlogP(x∣θ)=argθmaxlogi=1∏np(xi∣θ)=argθmaxi=1∑nlogp(xi∣θ)
贝叶斯派的观点:参数
θ
\theta
θ不是常量,而是一个服从某种概率分布的随机变量(r.v.)
θ
∽
p
(
θ
)
\theta\backsim p(\theta)
θ∽p(θ)称之为先验概率。
借助贝叶斯定理将参数的先验和后验通过似然连接起来:
P
(
θ
∣
X
)
=
P
(
X
∣
θ
)
⋅
P
(
θ
)
P
(
X
)
P(\theta|X)=\frac{P(X|\theta) \cdot P(\theta)}{P(X)}
P(θ∣X)=P(X)P(X∣θ)⋅P(θ)
P
(
θ
∣
X
)
P(\theta|X)
P(θ∣X)称为后验概率,
P
(
X
∣
θ
)
P(X|\theta)
P(X∣θ)为‘似然’,
P
(
X
)
P(X)
P(X)实际上是随机变量X的分布函数,可以写成积分
∫
θ
P
(
X
∣
θ
)
P
(
θ
)
d
θ
\int_\theta P(X|\theta)P(\theta)d\theta
∫θP(X∣θ)P(θ)dθ。
引入另一种估计方法(maximum a posteriori, MAP, 最大后验概率估计) θ M A P = a r g max θ P ( θ ∣ X ) = a r g max θ P ( X ∣ θ ) ⋅ P ( θ ) \theta_{MAP}=arg\max_{\theta}P(\theta|X)=arg\max_\theta P(X|\theta) \cdot P(\theta) θMAP=argθmaxP(θ∣X)=argθmaxP(X∣θ)⋅P(θ)
贝叶斯预测:已知样本X与一个新样本 x ^ \hat x x^,求 P ( x ^ ∣ X ) = ∫ θ P ( x ^ ∣ θ ) P ( X ) d θ = ∫ θ P ( x ^ ∣ θ ) P ( θ ∣ X ) d θ P(\hat x|X)=\int_\theta P(\hat x|\theta)P(X)d\theta=\int_\theta P(\hat x|\theta)P(\theta|X)d\theta P(x^∣X)=∫θP(x^∣θ)P(X)dθ=∫θP(x^∣θ)P(θ∣X)dθ
总结:
频率派的问题根本上是一个优化问题,设计一个模型,计算loss,降低loss的优化方法。
贝叶斯派的问题根本上是一个求积分的问题,通过蒙特卡洛采样等方法求解。