频率学派与Bayes学派是两种看待问题的角度,在机器学习里面。频率学派与Bayes学派解决问题的方法是不一样的。本文根据前人的总结,探讨一下频率学派与Bayes学派究竟是个啥。
参考:
http://www.sohu.com/a/215176689_610300,
Ng机器学习课程。
刚开始了解频率学派与Bayes学派是在Ng的《Bayes统计正则化》课程上,但是Ng没有给出太多的解释。在看了那次课程后,我就有这样一个印象:Bayes学派会假设所求参数是服从一定的分布的,是不确定的;频率学派是假设所求参数是确定的。下面具体来说一下。
频率学派
令训练集 X=(xi,yi)ni=1 X = ( x i , y i ) i = 1 n ,在频率学派里面,我们要预测的目标为
P(y|x;θ) P ( y | x ; θ ) ,
注意到这里 θ θ 被看成是一个确定的值(未知常量),所以用’;’隔开。但是实际上,我们是极大化关于 θ θ 的一个函数(似然)
argmax L(θ)
a
r
g
m
a
x
L
(
θ
)
=argmax P(X;θ)
=
a
r
g
m
a
x
P
(
X
;
θ
)
=argmax ∏ni=1P(xi,yi;θ)
=
a
r
g
m
a
x
∏
i
=
1
n
P
(
x
i
,
y
i
;
θ
)
=argmax ∏ni=1P(yi|xi;θ)P(xi)
=
a
r
g
m
a
x
∏
i
=
1
n
P
(
y
i
|
x
i
;
θ
)
P
(
x
i
)
=argmax ∏ni=1P(yi|xi;θ)
=
a
r
g
m
a
x
∏
i
=
1
n
P
(
y
i
|
x
i
;
θ
)
=argmax ∑ni=1logP(yi|xi;θ)
=
a
r
g
m
a
x
∑
i
=
1
n
l
o
g
P
(
y
i
|
x
i
;
θ
)
这就是极大似然估计(MLE)的基本过程。举个例子,在线性回归中,假设预测值和真实值之间的误差服从高斯分布,那么根据MLE就得到了OLS的表达式。
Bayes学派
在Bayes学派中,参数 θ θ 是一个随机变量,服从一定的分布。因此引入了 P(θ) P ( θ ) 这一项,并且其优化目标变成了
P(θ|X) P ( θ | X )
稍微解释一下这个公式,Bayes学派认为 θ θ 服从一定的分布,那么 P(θ|X) P ( θ | X ) 是在给定训练集后,对 θ θ 分布的一个调整。显然,我们要极大化该式,这个过程叫做对参数的极大后验概率(Maximum A Posteriori, MAP)。由Bayes公式可知,
P(θ|X)=P(X|θ)P(θ)P(X) P ( θ | X ) = P ( X | θ ) P ( θ ) P ( X ) ,
所以,
argmax L(θ)
a
r
g
m
a
x
L
(
θ
)
=argmax P(θ|X)
=
a
r
g
m
a
x
P
(
θ
|
X
)
=argmax P(X|θ)P(θ)P(X)
=
a
r
g
m
a
x
P
(
X
|
θ
)
P
(
θ
)
P
(
X
)
=argmax P(X|θ)P(θ)
=
a
r
g
m
a
x
P
(
X
|
θ
)
P
(
θ
)
=argmax P(X;θ)P(θ)
=
a
r
g
m
a
x
P
(
X
;
θ
)
P
(
θ
)
=argmax ∑ni=1logP(yi|xi;θ)+logP(θ)
=
a
r
g
m
a
x
∑
i
=
1
n
l
o
g
P
(
y
i
|
x
i
;
θ
)
+
l
o
g
P
(
θ
)
注意到在上式中, P(X|θ)=P(X;θ) P ( X | θ ) = P ( X ; θ ) ,这又是为啥?实际上这两者没有本质的不同,但是在频率学派中是为了消除条件概率中“|”的歧义。回到频率学派中,我们估计 P(y|x;θ) P ( y | x ; θ ) , θ θ 给定。如果这里写成 P(y|x|θ) P ( y | x | θ ) ,很显然会造成歧义,因为 P(y|x|θ) P ( y | x | θ ) 既可以表示在 x|θ x | θ 给定的情况下,发生y的概率,也可以表示 θ θ 给定的情况下,发生 y|x y | x 的概率。
OK!到这里,读者可能已经看明白Bayes学派和频率学派的差别了,实际上就在于Bayes学派比频率学派多了一个参数先验。在优化目标中,就对应的多了一项
logP(θ)
l
o
g
P
(
θ
)
。
1. 如果
θ
θ
服从高斯分布,
logP(θ)
l
o
g
P
(
θ
)
即是
l2
l
2
正则化;
2. 如果
θ
θ
服从Laplace分布,
logP(θ)
l
o
g
P
(
θ
)
即是
l1
l
1
正则化;
这个读者可以自行推导一下。
总结
说的广泛一点,频率学派与Bayes学派看待世界的角度不一样,频率学派认为有一个固定的参数 θ θ 主宰世界的运行;而Bayes学派认为 θ θ 和世界一样,也是一个随机变量。对应的频率学派采用MLE估计目标概率,而Bayes学派采用MAP估计目标概率。顺便说一句,朴素Bayes方法是一种频率学派的方法,因为朴素Bayes方法里面不含有对未知参数的任何分布假设。