Probability Distribution
0.introduction
1.density estimation:给定随机变量
x
的一些观察值
2.对于density estimation问题,常见的频率学派的做法是MLE(极大似然估计),例如,假设数据的分布服从高斯分布,对高斯分布的参数进行最优化使得观测点出现的概率最大;常见的贝叶斯学派的做法是MAP(最大后验概率估计),例如,假设参数服从高斯分布,然后使用贝叶斯定理计算在已知观测数据点的情况下参数的后验概率。
3.density estimation分为parametric method和nonparametric method。The former assumes a specific functional form of the distribution governed by parameters,while in the latter method, the distribution depends on the size of the dataset.
1.Binary variables
1.Bernouli(伯努利)分布:也叫0-1分布,假设
p(x=1)=μ
,伯努利分布的概率分布函数为:
伯努利分布的期望和方差为:
假设我们的观测数据集为 D={x1,...,xN|xi∈{0,1}} ,如果我们假设观测数据服从伯努利分布,则我们可以通过极大似然估计得到最优的参数 μ ,所有数据点出现的概率为
通常我们会最大化log似然函数,如下所示:
上式对参数 μ 求导,得到是观测点出现概率最大的参数 μ 满足
也就是说,极大似然估计得到的参数 μ (二项分布中x=1的概率)即为1在数据集中出现的频率。
考虑一种特殊的情况,假设我们抛掷了三次硬币,每次都是正面朝上的,那么使用极大似然估计得到的参数 μ=1 ,也就是说,得到的模型会估计接下来的每一次硬币抛掷的结果都是正面朝上的,这即是一种典型的过拟合的现象(在第一章里面,我们也说到了极大似然估计就相当于简单的最小二乘方法,当方程数目(观测的数目)不够的时候,很容易出现过拟合)。接下来我们会讲通过提供一个关于 μ 的先验能够得到更加合理的估计。
2.binomial(二项式)分布:二项分布是在0-1分布上的拓展,假设我们抛掷N次硬币,每次抛掷出现正面朝上(x=1)的概率为
μ
,一共抛掷了
N
次,则正面朝上(x=1)出现m次的概率为:
因为 m=x1+x2+...+xN ,因此上述二项分布的期望和方差为:
3.beta分布:前面讲到了使用极大似然估计,当观测的数据集比较小的时候,容易出现过拟合的问题。我们现在尝试使用贝叶斯估计的方法进行缓解。针对前面提到的抛硬币问题,我们需要定义被估计的参数
μ
的先验分布,然后根据观测数据,求出参数
μ
的后验分布。通常我们会使用
conjugate prior
,即先验分布和似然函数的形式一样,这样的话后验分布就和先验分布形式保持一致。观察前面似然函数的形式,我们这里提到的先验分布即为
beta
分布:
其中 Γ(x) 表示gamma函数,上述 beta 概率密度函数满足归一化性质 ∫10Beta(μ|a,b)dμ=1
beta 分布的期望和方差为:
在已知参数 μ 的先验以及观测数据(抛掷N次硬币,其中m次正面朝上,l=N-m次反面朝上)之后,我们可以求得在已知观测数据的情况下,参数 μ 的后验分布 p(μ|D)∝p(D|μ)∗p(μ) ,根据前面似然函数的形式,我们可以发现后验概率服从的分布也是 β 分布,如下:
从上面后验分布的形式,我们可以将 μ 的指数看成是观测之后正面朝上的次数, 1−μ 的指数看成是观测之后反面朝上的次数, a−1 和 b−1 是在我们N次抛掷之前的观测结果。这样的话,相当于每抛一次正面朝上, μ 指数加一,每抛一次反面朝上, 1−μ 指数加一。随着抛掷的不断进行,后验分布在不断改变,并且前一次抛掷的后验分布就是下一次实验的先验分布。下图表示了一次抛掷实验对参数 μ 的分布的影响:
从上图中可以看到,出现一次正面朝上的事件使得参数 μ 的分布像 μ=1 偏移。
上面这种序列学习的方法很适用于real-time learning,数据不断地进来,我们不断根据新观测到的数据更新模型的参数。
如果我们的目的是根据到目前为止的观测数据,预测下一次抛掷的结果,那么我们必须根据估计的参数
μ
预测正面朝上事件
x=1
的概率
根据前面
beta
分布期望的公式,我们可以得到
对比极大似然估计的结果 p(x=1|D)=mm+l ,我们可以看到, 一方面,当观测数据很少的时候,使用贝叶斯估计能缓解过拟合的现象,另一方面,当观测数据足够大的时候,贝叶斯估计和极大似然估计预测的结果是吻合的。