概率论、统计学相信大家都有了解或者上课学过,还有不少人认为概率论也就 P ( A ) + P ( B ) = 1 P(A)+P(B)=1 P(A)+P(B)=1如此简单,包括曾经的我哈,大学概率论满分,也觉得概率论、统计学就那样嘛,不难。
但随着深入的学习,概率论、统计学是机器学习的基础。它们构成了机器学习的理论体系,我们必须非常清晰地分辨它们,找出它们之间的区别。(注:真正有内容的知识往往是不简单、枯燥且乏味的,但这就是打通任督二脉前的考验)
参考blog:
机器学习(二十五)— 极大似然估计(MLE)、贝叶斯估计、最大后验概率估计(MAP)区别
贝叶斯估计、最大似然估计、最大后验概率估计
频率学派还是贝叶斯学派?聊一聊机器学习中的MLE和MAP
推荐书籍:《机器学习》(西瓜书)、《统计学习方法》、《PRML:模式识别与机器学习》
概率和统计
-
概率论是集中研究概率及随机现象的数学分支,是研究随机性或不确定性等现象的数学。
-
统计学是在数据分析的基础上,研究如何测定、收集、整理、归纳和分析反映数据数据,以便给出正确消息的科学。
——以上概念来自Wiki百科 -
概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。
-
统计研究的问题是,有一堆数据,要利用这堆数据去预测模型和参数。
概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。
频率学派和贝叶斯学派
注:频率学派与贝叶斯学派只是解决问题的角度不同。
频率学派与贝叶斯学派探讨「不确定性」这件事时的出发点与立足点不同。频率学派从「自然」角度出发,试图直接为「事件」本身建模,即事件在独立重复试验中发生的频率趋于极限,那么这个极限就是该事件的概率。
贝叶斯学派并不从试图刻画「事件」本身,而从「观察者」角度出发。贝叶斯学派并不试图说「事件本身是随机的」,或者「世界的本体带有某种随机性」,这套理论根本不言说关于「世界本体」的东西,而只是从「观察者知识不完备」这一出发点开始,构造一套在贝叶斯概率论的框架下可以对不确定知识做出推断的方法。
举个生动的例子:
丢一枚硬币,丢了10次,8次正面,2次反面。那么下一次是正面的概率是多少呢?
频率学派:存在唯一真值θ,认为是θ = 8/10 = 0.8;当数据量趋于无穷时,这种方法能给出精准的估计;然而缺乏数据时则可能产生严重的偏差。例如,对于一枚均匀硬币,即θ = 0.5,抛掷5次,出现5次正面 (这种情况出现的概率是1/2^5=3.125%),频率学派会直接估计这枚硬币θ = 1,出现严重错误。
贝叶斯学派认为:丢硬币为正的概率θ是一个随机变量,符合一定的概率分布。(因为首先,贝叶斯学派认为对一枚硬币来说,完整无缺的话概率一定是0.5的,但我们不能认为它一定是完整无缺的,因此符合某种分布,假设分布是最大值取在0.5处的Beta分布),在这个先验概率的加持下,再根据这五次实验的结果,计算出来的结果显然不会是0.8,应该是在0.5~0.8的中间。
P
(
θ
∣
X
)
=
P
(
X
∣
θ
)
×
P
(
θ
)
P
(
X
)
P(\theta|X) = \frac{P(X|\theta)\times P(\theta)}{P(X)}
P(θ∣X)=P(X)P(X∣θ)×P(θ)
先验,即
P
(
θ
)
P(\theta)
P(θ) ,指的是在没有观测到任何数据时对θ的预先判断,例如给我一个硬币,一种可行的先验是认为这个硬币有很大的概率是均匀的,有较小的概率是是不均匀的;
似然,即
P
(
X
∣
θ
)
P(X|\theta)
P(X∣θ),描述的是在不同参数
θ
\theta
θ下样本出现的对应概率;
后验,即
P
(
θ
∣
X
)
P(\theta|X)
P(θ∣X),是最终的参数分布。
频率学派的代表是最大似然估计;贝叶斯学派的代表是最大后验概率估计。
似然函数和概率函数
在统计学中,似然函数(likelihood function,通常简写为likelihood,似然)是一个非常重要的内容,在非正式场合似然和概率(Probability)几乎是一对同义词,但是在统计学中似然和概率却是两个不同的概念。
对于这个函数:P(x|θ)。输入有两个:x表示某一个具体的数据;θ表示模型的参数。
如果θ是已知确定的,x是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点x,其出现概率是多少。
如果x是已知确定的,θ是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现x这个样本点的概率是多少。
在对事物建模时,用θ表示模型的参数,请注意,解决问题的本质就是求θ。
极大似然估计(MLE)
极大似然估计方法(Maximum Likelihood Estimate,MLE)也称为最大概似估计或最大似然估计,是求估计的另一种方法。
**简单来说,我们的目标是最大化似然函数来对模型参数进行估计。**极大似然估计靠已有的数据样本从而推测出事物的最有可能的分布概率。所以在数据样本量大的情况下,这种概率更为可靠。
我们继续沿用上述的例子:
对一个独立同分布的样本集来说,总体的似然就是每个样本似然的乘积。
L
(
X
;
θ
)
=
∏
i
=
0
n
P
(
X
i
∣
θ
)
=
θ
8
(
1
−
θ
)
2
L(X;\theta) = \prod_{i=0}^nP(X_i|\theta)=\theta^8(1-\theta)^2
L(X;θ)=i=0∏nP(Xi∣θ)=θ8(1−θ)2
根据最大似然估计,使
L
(
X
;
θ
)
L(X;\theta)
L(X;θ)取得最大值的
θ
\theta
θ即为估计结果,令
L
(
X
;
θ
)
′
=
0
L(X;\theta)^\prime =0
L(X;θ)′=0可得
θ
^
=
0.8
\hat{\theta}=0.8
θ^=0.8
最大似然估计的求解步骤:
- 确定似然函数
- 将似然函数转换为对数似然函数
- 求对数似然函数的最大值(求导,解似然方程)
最大后验概率估计(MAP)
统计学中,MAP为最大后验概率(Maximum a posteriori)的缩写。
最大似然估计与最大后验概率估计的比较:
-
最大似然估计是求参数θ, 使似然函数 P ( X ∣ θ ) P(X|\theta) P(X∣θ)最大。
-
最大似然估计认为使似然函数最大的参数即为最好的,此时最大似然估计是将看作固定的值,只是其值未知。
-
最大后验概率估计则是想求θ使 P ( X ∣ θ ) P ( θ ) P(X|\theta)P(\theta) P(X∣θ)P(θ)最大。求得的 θ \theta θ不单单让似然函数大, θ \theta θ自己出现的先验概率也得大。
-
最大后验概率分布认为是一个随机变量,即具有某种概率分布,称为先验分布,求解时除了要考虑似然函数之外,还要考虑的先验分布,因此其认为使取最大值的就是最好的。
最大后验概率估计公式表示为:
a
r
g
m
a
x
θ
P
(
θ
∣
X
)
=
a
r
g
m
a
x
θ
P
(
X
∣
θ
)
P
(
θ
)
P
(
X
)
∝
a
r
g
m
a
x
θ
P
(
X
∣
θ
)
P
(
θ
)
\mathop{argmax}\limits_{\theta}P(\theta|X)=\mathop{argmax}\limits_{\theta}\frac {P(X|\theta)P(\theta)} {P(X)}\propto \mathop{argmax}\limits_{\theta}P(X|\theta)P(\theta)
θargmaxP(θ∣X)=θargmaxP(X)P(X∣θ)P(θ)∝θargmaxP(X∣θ)P(θ)
先验概率,即
P
(
θ
)
P(\theta)
P(θ) ,指的是在没有观测到任何数据时对θ的预先判断;
似然函数,即
P
(
X
∣
θ
)
P(X|\theta)
P(X∣θ),,描述的是在参数
θ
\theta
θ下样本出现的对应概率;
后验概率,即
P
(
θ
∣
X
)
P(\theta|X)
P(θ∣X),是最终的参数分布;
P
(
X
)
P(X)
P(X)是实验的样本出现的情况对应的概率,为固定值,因此第二项正相关于第三项。
比较高端的理解:最大后验概率估计可以看作是正则化的最大似然估计,当然机器学习或深度学习中的正则项通常是加法,而在最大后验概率估计中采用的是乘法, P ( θ ) P(\theta) P(θ)是正则项。在最大似然估计中,由于认为 θ \theta θ是固定的,因此 P ( θ ) = 1 P(\theta)=1 P(θ)=1。
最大后验概率估计的求解步骤:
- 确定参数的先验分布以及似然函数
- 确定参数的后验分布函数
- 将后验分布函数转换为对数函数
- 求对数函数的最大值(求导,解方程)
贝叶斯估计
贝叶斯估计(Bayesian estimation)是利用贝叶斯定理结合新的证据及以前的先验概率,来得到新的概率。
它提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。
贝叶斯估计公式由贝叶斯公式拓展而来;
贝叶斯公式:
P
(
θ
∣
X
)
=
P
(
X
∣
θ
)
P
(
θ
)
P
(
X
)
P(\theta|X)= \frac {P(X|\theta)P(\theta)} {P(X)}
P(θ∣X)=P(X)P(X∣θ)P(θ)
在连续型随机变量中,由于
P
(
X
)
=
∫
Θ
P
(
X
∣
θ
)
P
(
θ
)
d
θ
P(X)=\int_{\Theta}P(X|\theta)P(\theta)d\theta
P(X)=∫ΘP(X∣θ)P(θ)dθ,因此贝叶斯公式变为:
P
(
θ
∣
X
)
=
P
(
X
∣
θ
)
P
(
θ
)
∫
Θ
P
(
X
∣
θ
)
P
(
θ
)
d
θ
P(\theta|X)= \frac {P(X|\theta)P(\theta)} {\int_{\Theta}P(X|\theta)P(\theta)d\theta}
P(θ∣X)=∫ΘP(X∣θ)P(θ)dθP(X∣θ)P(θ)
可以看到,贝叶斯估计和最大后验概率估计式子很相似,最重要的区别就是
P
(
X
)
P(X)
P(X)这一部分。
贝叶斯估计是最大后验概率估计的进一步扩展,贝叶斯估计同样假定
θ
\theta
θ是一个随机变量,但贝叶斯估计并不是直接估计出
θ
\theta
θ的某个特定值,而是估计
θ
\theta
θ的分布。因此
θ
\theta
θ的分布变化对于
P
(
X
)
P(X)
P(X)不再是固定值。
从上面的公式中可以看出,贝叶斯估计的求解非常复杂,因此选择合适的先验分布就非常重要。一般来说,计算积分 ∫ θ P ( X ∣ θ ) P ( θ ) d θ \int_{\theta}P(X|\theta)P(\theta)d\theta ∫θP(X∣θ)P(θ)dθ是不可能的。所以在求解过程中,我们会采取共轭先验的方法使得求解更为方便。
共轭先验:在贝叶斯统计中,如果后验分布与先验分布属于同类,则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。例如:二项分布参数的共轭先验是Beta分布,多项式分布参数的共轭先验是Dirichlet分布,指数分布参数的共轭先验是Gamma分布,⾼斯分布均值的共轭先验是另⼀个⾼斯分布,泊松分布的共轭先验是Gamma分布。
贝叶斯估计的求解步骤:
- 确定参数的似然函数
- 确定参数的先验分布,应是后验分布的共轭先验
- 确定参数的后验分布函数
- 根据贝叶斯公式求解参数的后验分布
P ( θ ∣ X ) = P ( X ∣ θ ) P ( θ ) ∫ Θ P ( X ∣ θ ) P ( θ ) d θ P(\theta|X)= \frac {P(X|\theta)P(\theta)} {\int_{\Theta}P(X|\theta)P(\theta)d\theta} P(θ∣X)=∫ΘP(X∣θ)P(θ)dθP(X∣θ)P(θ) - 求出贝叶斯估计值(因为前面估计得到的是参数的分布,求的期望就可以得到我们估计的参数了)
θ ^ = ∫ Θ θ P ( θ ∣ X ) d θ \hat{\theta}={\int_{\Theta}\theta P(\theta|X)d\theta} θ^=∫ΘθP(θ∣X)dθ
对比总结
- 极大似然估计、最大后验估计和贝叶斯估计都是参数估计方法。
- 极大似然估计和最大后验估计都是点估计,即把参数看成未知常数,通过最大化似然和后验概率实现。(点估计(point estimation)是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。)
- 贝叶斯估计把参数看成一个随机变量,属于分布估计,然后求该随机变量在数据集D下的条件期望。
- 当先验为均匀分布时,极大似然估计和最大后验估计等价。 即估计参数的先验概率为 1 。
- 当样本数量 N N N趋于无穷大时,参数先验的影响趋于0,最大后验估计趋于极大似然估计。
- 通常情况下,贝叶斯估计的积分很难计算,除了采用共轭先验,还可以采取一些近似方法,如拉普拉斯和变分近似以及马尔科夫链蒙特卡洛抽样。
- 实际上,当取估计到的参数分布概率最大的点作为最佳参数,那么分布估计也就变成了点估计。取贝叶斯估计中参数后验分布中概率最大的点来估计参数就是最大后验估计。