目录
-
贝叶斯学习
1.1 MLE
1.2 MAP
1.3 贝叶斯估计
1 贝叶斯学习
本讲我们将为大家介绍贝叶斯学习的内容,着重分析最大似然估计以及贝叶斯估计这两种方法在参数估计问题上的差异。虽然这两种方法得到的结果通常是很接近的,但是其本质却有很大的差别。
最大似然估计将待估计的参数看做是确定性的量,只是其值我们暂时还不知道;而贝叶斯估计则将待估计的参数看成是符合某种先验概率分布的随机变量。对样本进行观测的过程,就是把先验概率密度转化为后验概率密度,这样就利用样本的信息修正了对参数的初始估计值。这个过程也可以看成是贝叶斯学习的过程。
1.1 MLE
先来回顾一下最大似然估计(maximum likelihood estimation, MLE)的内容:
用途:估计模型参数
✓ 似然函数取最大时的参数值作为估计值
估计过程如下:
1)假设有一批数据X,且x均服从某种参数为的分布:
2)因为x服从独立同分布,参数向量的MLE就是使
达到最大值的那个参数向量:
3)取对数:
这样描述可能有些抽象,下面来举几个例子,加深对MLE的理解。假设我们的x服从接下来的各个分布,看一看MLE是如何进行参数估计的:
举例:贝努利分布
以抛硬币为例,正面朝上概率为p,反面为1-p。
参数估计:
求导:
假设抛一枚硬币n次,其中正面朝上的次数用#head表示,那么问你正面朝上的概率为多少呢?相信很多人都会计算:#head/n。
那么从上面的推导中也可以看到正面朝上的概率p通过MLE方法得到的值与我们日常中估计的方法一致。
举例:多项式分布
以抛骰子为例
则有:
取对数,求导:
可以看到得出的参数的计算方式依旧与我们日常中的思路一致(假设掷一枚骰子n次,点数为1朝上的概率为在1朝上的次数除以总次数n)。
举例:高斯分布
假设有一批数据D,且x服从均值为,方差为σ^2的高斯分布。数据D是如下图x轴坐标所示,那么哪一个模型比较好的刻画数据D的分布呢?
很显然,中间的红色的曲线比较能够好的刻画D的分布,下面我们从MLE的角度分析一下。
同样需要取对数,求导:
得到的方差为所有样本的均值,对应于上图,即高斯分布的中轴线的位置,差不多红色曲线中轴线的位置与数据均值的位置最为相近。当然,此刻我们得到的参数只是对于真实值的一个估计,其对于真实值的接近程度是受训练样本数量限制的。如果训练样本数量越多,那么对于参数的估计值也就越接近与真实值。
1.2 MAP
说完MLE,就不得不说说另外一种估计方法----最大后验估计(Maximum a posteriori estimation,MAP)。
其中为参数
的先验概率。即上述贝叶斯过程可以这样描述:
所以,上文说述的MLE可以说是当先验概率为均匀分布时的MAP。
举例:单变量高斯分布的均值
简单起见,我们只考虑只有均值μ未知的情况,且参数μ也服从高斯分布(均值、方差已知)。
采用MAP:
求导:
可以看到求得的μ为MLE得到的μ以及的加权和,且权值之和为1。这种组合称为凸组合,当n很大的时候,即训练样本充足,μ的取值与
接近,这说明此时采用极大似然估计比较可靠;反之,当n很小时,参数原始的分布更可靠一些。譬如对于抛硬币来说,我抛了一枚硬币两次,结果两次有头像的一面都朝上,然后兴冲冲的跑去告诉老师结论,有头像的一面朝上的概率为1。老师说,不对,一般情况下,有头像的一面朝上的概率为0.5,你在多抛几次试试。从这个过程中,我们看到老师所拥有的先验信息(p=0.5)在试验次数较少时,应该占主要部分,当试验次数比较多时,根据大数定律,此时通过MLE得到的概率估计(#head/n)则占主要部分,(就好比说,我试验了那么多次,总该在样本中分布中有所体现吧),这样得出的概率估计才比较合理。
举例:回归模型
其中服从均值为0,方差为1的高斯分布,则p(y)服从均值为
,方差为1的高斯分布,且参数w也服从一个高斯分布。
取对数,求导:
可以看到整个优化过程,从贝叶斯的角度来看是一种贝叶斯最大后验估计,正则化项变成了一种先验信息。
1.3 贝叶斯估计
在贝叶斯学习方法中, 我们把参数向量本身看成是一个随机变量,已有的训练样本使我们能够对于
的初始的密度估计转化为后验概率密度。
◇ 先验信息:看到样本前关于参数的信息
◇ 样本似然:当分布的参数确定下来后,看到这些样本的可能性
用概率图模型表示:
已知一组训练数据X,这些样本都是从固定但未知的概率密度函数中独立抽取的,要求根据这些样本估计
,这就是贝叶斯学习的核心问题。
由此也可以看出贝叶斯估计的一些特点:
✓ 贝叶斯推理需要一个先验假设
✓ 最小化期望损失:多参数求平均
✓ 方便进行模型选择
✓ 避免过度拟合
ㄨ 必须有一个先验假设
ㄨ 准确计算非常困难
MLE、MAP、Bayesian关系
由MLE可以计算MAP,由MAP可以进行贝叶斯估计,MAP可以看成是贝叶斯估计中参数最大值时的一个特例,贝叶斯估计则考虑了参数取值的所有情况,换句话说,在进行贝叶斯估计的时候就进行了模型选择。
像MLE一样,我们也提供了几个例子来进一步了解贝叶斯估计。
估计分布的参数:离散变量
写出似然函数:
但是贝叶斯估计需要一个关于参数的先验假设,刚好有一个分布,也具有指数的形式--Dirichlet Distribution。
为什么选择这个分布作为先验呢?是因为它具有许多优良的性质。那么下一讲,将会继续为大家介绍相关内容。感谢阅读!