频率学派与Bayes学派

频率学派与Bayes学派是两种看待问题的角度,在机器学习里面。频率学派与Bayes学派解决问题的方法是不一样的。本文根据前人的总结,探讨一下频率学派与Bayes学派究竟是个啥。

参考:
http://www.sohu.com/a/215176689_610300
Ng机器学习课程。

刚开始了解频率学派与Bayes学派是在Ng的《Bayes统计正则化》课程上,但是Ng没有给出太多的解释。在看了那次课程后,我就有这样一个印象:Bayes学派会假设所求参数是服从一定的分布的,是不确定的;频率学派是假设所求参数是确定的。下面具体来说一下。

频率学派

令训练集 X=(xi,yi)ni=1 X = ( x i , y i ) i = 1 n ,在频率学派里面,我们要预测的目标为

P(y|x;θ) P ( y | x ; θ )

注意到这里 θ θ 被看成是一个确定的值(未知常量),所以用’;’隔开。但是实际上,我们是极大化关于 θ θ 的一个函数(似然)

argmax L(θ) a r g m a x   L ( θ )
=argmax P(X;θ) = a r g m a x   P ( X ; θ )
=argmax ni=1P(xi,yi;θ) = a r g m a x   ∏ i = 1 n P ( x i , y i ; θ )
=argmax ni=1P(yi|xi;θ)P(xi) = a r g m a x   ∏ i = 1 n P ( y i | x i ; θ ) P ( x i )
=argmax ni=1P(yi|xi;θ) = a r g m a x   ∏ i = 1 n P ( y i | x i ; θ )
=argmax ni=1logP(yi|xi;θ) = a r g m a x   ∑ i = 1 n l o g P ( y i | x i ; θ )

这就是极大似然估计(MLE)的基本过程。举个例子,在线性回归中,假设预测值和真实值之间的误差服从高斯分布,那么根据MLE就得到了OLS的表达式。

Bayes学派

在Bayes学派中,参数 θ θ 是一个随机变量,服从一定的分布。因此引入了 P(θ) P ( θ ) 这一项,并且其优化目标变成了

P(θ|X) P ( θ | X )

稍微解释一下这个公式,Bayes学派认为 θ θ 服从一定的分布,那么 P(θ|X) P ( θ | X ) 是在给定训练集后,对 θ θ 分布的一个调整。显然,我们要极大化该式,这个过程叫做对参数的极大后验概率(Maximum A Posteriori, MAP)。由Bayes公式可知,

P(θ|X)=P(X|θ)P(θ)P(X) P ( θ | X ) = P ( X | θ ) P ( θ ) P ( X )

所以,
argmax L(θ) a r g m a x   L ( θ )
=argmax P(θ|X) = a r g m a x   P ( θ | X )
=argmax P(X|θ)P(θ)P(X) = a r g m a x   P ( X | θ ) P ( θ ) P ( X )
=argmax P(X|θ)P(θ) = a r g m a x   P ( X | θ ) P ( θ )
=argmax P(X;θ)P(θ) = a r g m a x   P ( X ; θ ) P ( θ )
=argmax ni=1logP(yi|xi;θ)+logP(θ) = a r g m a x   ∑ i = 1 n l o g P ( y i | x i ; θ ) + l o g P ( θ )

注意到在上式中, P(X|θ)=P(X;θ) P ( X | θ ) = P ( X ; θ ) ,这又是为啥?实际上这两者没有本质的不同,但是在频率学派中是为了消除条件概率中“|”的歧义。回到频率学派中,我们估计 P(y|x;θ) P ( y | x ; θ ) θ θ 给定。如果这里写成 P(y|x|θ) P ( y | x | θ ) ,很显然会造成歧义,因为 P(y|x|θ) P ( y | x | θ ) 既可以表示在 x|θ x | θ 给定的情况下,发生y的概率,也可以表示 θ θ 给定的情况下,发生 y|x y | x 的概率。

OK!到这里,读者可能已经看明白Bayes学派和频率学派的差别了,实际上就在于Bayes学派比频率学派多了一个参数先验。在优化目标中,就对应的多了一项 logP(θ) l o g P ( θ )
1. 如果 θ θ 服从高斯分布, logP(θ) l o g P ( θ ) 即是 l2 l 2 正则化;
2. 如果 θ θ 服从Laplace分布, logP(θ) l o g P ( θ ) 即是 l1 l 1 正则化;
这个读者可以自行推导一下。

总结

说的广泛一点,频率学派与Bayes学派看待世界的角度不一样,频率学派认为有一个固定的参数 θ θ 主宰世界的运行;而Bayes学派认为 θ θ 和世界一样,也是一个随机变量。对应的频率学派采用MLE估计目标概率,而Bayes学派采用MAP估计目标概率。顺便说一句,朴素Bayes方法是一种频率学派的方法,因为朴素Bayes方法里面不含有对未知参数的任何分布假设。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值