频率学派和贝叶斯学派的参数估计

最新推荐文章于 2023-11-14 21:29:15 发布

wanzer316

最新推荐文章于 2023-11-14 21:29:15 发布

阅读量8.6k

点赞数 14

分类专栏： math 文章标签： math

本文链接：https://blog.csdn.net/wzgbm/article/details/51721143

版权

math 专栏收录该内容

3 篇文章 2 订阅

订阅专栏

一. 频率学派与贝叶斯学派的区别

　　在查找“极大似然估计”有关知识点的时候，经常会碰到“频率学派”和“贝叶斯学派”这两个虽故事深厚，但是对于我们实际使用参数估计法并没有什么暖用的词，然而随着这两个词的曝光增多，它犹如一个没有解决的问题一样，潜伏在脑海深处，于是就在网上搜了一些结果，加工处理总结于此处。
　　知乎上的回答[1]：

　　简单地说，频率学派与贝叶斯学派探讨「不确定性」这件事时的出发点与立足点不同。频率学派从「自然」角度出发，试图直接为「事件」本身建模，即事件A在独立重复试验中发生的频率趋于极限p，那么这个极限就是该事件的概率。举例而言，想要计算抛掷一枚硬币时正面朝上的概率，我们需要不断地抛掷硬币，当抛掷次数趋向无穷时正面朝上的频率即为正面朝上的概率。
　　贝叶斯学派并不从试图刻画「事件」本身，而从「观察者」角度出发。贝叶斯学派并不试图说「事件本身是随机的」，或者「世界的本体带有某种随机性」，而只是从「观察者知识不完备」这一出发点开始，构造一套在贝叶斯概率论的框架下可以对不确定知识做出推断的方法。

　　豆瓣上的回答[２]：

　　这个区别说大也大，说小也小。往大里说，世界观就不同，频率派认为参数是客观存在，不会改变，虽然未知，但却是固定值；贝叶斯派则认为参数是随机值，因为没有观察到，那么和是一个随机数也没有什么区别，因此参数也可以有分布，个人认为这个和量子力学某些观点不谋而合。
　　往小处说，频率派最常关心的是似然函数，而贝叶斯派最常关心的是后验分布。我们会发现，后验分布其实就是似然函数乘以先验分布再normalize一下使其积分到1。因此两者的很多方法都是相通的。贝叶斯派因为所有的参数都是随机变量，都有分布，因此可以使用一些基于采样的方法（如MCMC）使得我们更容易构建复杂模型。频率派的优点则是没有假设一个先验分布，因此更加客观，也更加无偏，在一些保守的领域（比如制药业、法律）比贝叶斯方法更受到信任。　

　　结合以上以及其他知乎上的回答，做一个总结，频率学派认为事物本身冥冥之中是服从一个分布的（至于是什么，只有上帝知道），这个分布的参数是固定的，因此，反过来想，上帝用这个分布制造了一些数据给了频率学派，频率学派的出发点是上帝在制造这些数据的时候那个参数是唯一固定的，我们要做的就是考虑哪个值最有可能是那个参数值呢，于是就有了“最大似然”和“置信区间”这样的概念，从名字就可以看出来他们关心的就是我有多大把握去圈出那个唯一的真实参数。然而贝叶斯学派认为，我们并没有上帝视角，怎么能够确定这些数据是用哪个固定参数值造出来的，因此他们关心的是参数空间的每一个值，给这些值一些他们自己认为合理的假设值（先验分布），然后在去做实验（证据），不断地调整自己的假设，从而得到最后结果（后验分布），但是又反过来想，既然我们不是上帝，那么这个先验假设又怎么能做出来了呢。
　　频率学派太过于看中事实（太现实了），以至于容易被现实欺骗，比如掷硬币，掷了无数次都是正面，从频率学派的角度就会认为正面出现的概率为1；贝叶斯学派太过于幻想，以至于想象中的很多东西很难实现，例如很难准确判断参数的先验分布。总之，你我都不是上帝，所以也就没有绝对的孰对孰错。

有一点需要说明的，条件概率并不能说成是贝叶斯学派的，它只有结合先验概率并以求后验概率为目的的时候才能说成是贝叶斯的观点。

二. 频率学派的参数估计

1.极大似然估计

　　极大似然估计（Maximum Likelihood Estimate，MLE），也叫最大似然估计，经过上述分析我们知道它是频率学派的思想，也就是为了求自认为的上帝的固定参数的，而尽量使这个参数接近真实。
　　这里直接贴出[3]中的内容：

1) 离散随机变量的似然函数：

　　若总体 $X$ 属离散型,其分布律 $P\{X=x\}=p(x;\theta)$ , $\theta\in\Theta$ 的形式为已知, $\theta$ 为待估参数, $\Theta$ 是 $\theta$ 可能的取值范围,设 $X_{1},X_{2},\cdots ,X_{n}$ 是来自 $X$ 的样本，则 $X_{1},X_{2},\cdots ,X_{n}$ 的联合概率分布为

\prod i = 1 n p (x; θ)

$\prod_{i=1}^np(x;\theta)$
　　设

x1,x2,⋯,xn $x_1,x_2,\cdots ,x_n$ 相应的样本值,易知样本

X1,X2,⋯,Xn $X_{1},X_{2},\cdots ,X_{n}$ 取到观察值

x1,x2,⋯,xn $x_1,x_2,\cdots ,x_n$ 的概率,亦即事件

{X1=x1,X2=x2,⋯,Xn=xn} $\{X_1=x_1,X_2=x_2,\cdots ,X_n=x_n\}$ 发生的概率为

L (θ) = L (x 1, x 2, \dots, x n; θ) = \prod i = 1 n p (x; θ)

$L(\theta)=L(x_1,x_2,\cdots ,x_n;\theta) = \prod_{i=1}^np(x;\theta)$
　　这一概率随

θ $\theta$ 的取值而变化,它是

θ $\theta$ 的函数,

L(θ) $L(\theta)$ 称为样本的似然函数(注意这里

x1,x2,⋯,xn $x_1,x_2,\cdots ,x_n$ 都是已知的样本值,它们都是常数)
　　在

θ $\theta$ 可取的范围内挑选使似然函数

L(x1,x2,⋯,xn;θ) $L(x_1,x_2,\cdots ,x_n;\theta)$ 达到最大的参数值

θ^ $\hat{\theta}$ ,作为参数

θ $\theta$ 的估计值.即取

θ^ $\hat{\theta}$ 使:

L (x 1, x 2, \dots, x n; θ^) = argmax θ \in Θ L (x 1, x 2, \dots, x n; θ)

$L(x_1,x_2,\cdots ,x_n;\hat{\theta}) = \text{argmax}_{\theta\in\Theta}L(x_1,x_2,\cdots ,x_n;\theta)$

2) 连续随机变量的似然函数：

　　若总体 $X$ 属连续型,其概率密度 $f(x;\theta)$ , $\theta\in\Theta$ 的形式为已知, $\theta$ 为待估参数, $\Theta$ 是 $\theta$ 可能的取值范围,设 $X_{1},X_{2},\cdots ,X_{n}$ 是来自 $X$ 的样本，则 $X_{1},X_{2},\cdots ,X_{n}$ 的联合概率密度为

\prod i = 1 n f (x; θ)

$\prod_{i=1}^nf(x;\theta)$
　　设

x1,x2,⋯,xn $x_1,x_2,\cdots ,x_n$ 相应的样本值,则随机点

X1,X2,⋯,Xn $X_{1},X_{2},\cdots ,X_{n}$ 落在点

x1,x2,⋯,xn $x_1,x_2,\cdots ,x_n$ 的邻域(边长分别为

dx1,dx2,⋯,dxn $d_{x_1},d_{x_2},\cdots,d_{x_n}$ 的n维立方体)内的概率近似为

\prod i = 1 n f (x; θ) d x i

$\prod_{i=1}^nf(x;\theta)d_{x_i}$
　　其值随

θ $\theta$ 的取值而变化,与离散的情况一样，取

θ $\theta$ 的估计值

θ^ $\hat{\theta}$ 使概率取到最大值,但因子

∏ni=1dxi $\prod_{i=1}^nd_{x_i}$ 不随

θ $\theta$ 而变,故只需考虑函数

L (x 1, x 2, \dots, x n; θ^) = \prod i = 1 n f (x i; θ)

$L(x_1,x_2,\cdots ,x_n;\hat{\theta}) = \prod_{i=1}^nf(x_i;\theta)$ 的最大值，这里

L(θ) $L(\theta)$ 就是样本的似然函数。

3) 最大似然估计一般求解过程：

　　(1) 写出似然函数；
　　(2) 对似然函数取对数，并整理；
　　(3) 求导数；
　　(4) 解似然方程.

三. 贝叶斯学派的参数估计

1. 最大后验估计

　　最大后验估计（maximum a posteriori estimation，MAP），它与极大似然估计最大的区别就是，它考虑了参数本身的分布，也就是先验分布。
　　这里直接贴出[4]中的内容
　　最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似，但是最大的不同时，最大后验估计的融入了要估计量的先验分布在其中（从第一节分析中我们可以得知这个先验分布可以理解为人们对事物的认识，也就是观察者的知识能力,先验分布的参数我们称为超参数(hyperparameter)）,故最大后验估计可以看做规则化的最大似然估计。
　　假设x为独立同分布的采样，θ为模型参数,p为我们所使用的模型。那么最大似然估计可以表示为：

θ^M L E (x) = a r g m a x θ p (x | θ)

$\hat{\theta}_{MLE}(x) = arg max_{\theta}p(x|\theta)$
　　现在，假设

θ $\theta$ 的先验分布为g。通过贝叶斯理论，对于

θ $\theta$ 的后验分布如下式所示：

p (θ | x) = p ( x | θ ) g ( θ ) \int θ \in Θ p ( x | θ ' ) g ( θ ' ) d θ '

$p(\theta|x) = \frac{p(x|\theta)g(\theta)}{\int_{\theta\in\Theta}p(x|\theta^{'})g(\theta^{'})d\theta^{'}}$
　　分母为x的边缘概率与

θ $\theta$ 无关，因此最大后验等价于使分子最大,故目标函数为：

θ^M A P (x) = a r g m a x θ p (x | θ) g (θ)

$\hat{\theta}_{MAP}(x) = argmax_{\theta}p(x|\theta)g(\theta)$

2. 贝叶斯估计

　　请参考“Bayes估计”　
　　　

参考文献

[1] http://www.zhihu.com/question/20587681
[2] http://www.douban.com/group/topic/16719644/
[3] http://www.duzelong.com/wordpress/201506/archives607/
[4] http://www.cnblogs.com/liliu/archive/2010/11/24/1886110.html

wanzer316

关注

14
点赞
踩
26

收藏

觉得还不错? 一键收藏
1
评论
频率学派和贝叶斯学派的参数估计

一频率学派与贝叶斯学派的区别二频率学派的参数估计极大似然估计1 离散随机变量的似然函数2 连续随机变量的似然函数3 最大似然估计一般求解过程三贝叶斯学派的参数估计最大后验估计贝叶斯估计参考文献一. 频率学派与贝叶斯学派的区别　　在查找“极大似然估计”有关知识点的时候，经常会碰到“频率学派”和“贝叶斯学派”这两个虽故事深厚，但是对于我们实际使用参数估计法并没有什么暖用的词，然
复制链接

扫一扫

专栏目录