16、参数估计

概率基本定义

先验分布:

似然函数:

后验分布:

贝叶斯公式:,其中

后验分布 = 似然函数 × 先验分布 / P(D)

贝叶斯公式

假设,现在有两个一定概率发生的事件A和B,且它们之间存在一定的关系

  • P(A) 表示事件A发生的概率

  • P(B) 表示事件A发生的概率

  • P(A|B) 表示事件B已经发生的前提下,事件A发生的概率

  • P(B|A) 表示事件A已经发生的前提下,事件B发生的概率

极大似然估计(MLE)

极大似然估计方法(Maximum Likelihood Estimate,MLE)也称为最大概似估计或最大似然估计,是求估计的方法之一

简单来讲,极大似然估计就是给定模型,然后通过收集数据,求该模型的参数。

似然函数形式:

连乘不好求解,通常会进行一个对数变换,转换为累加:

伯努利分布

每一个样本的概率可以表示为:,x=0 or 1,是成功的概率

假设有n个样本,

对数最大似然函数表达式:

对上式求导,解得当,似然函数取得最大值

正态分布

样本概率表示为:

假设有n个样本,

对数最大似然函数表达式:

对上式求导,解得当,似然函数取得最大值

例子

路人甲在一个不透明的袋里放了若干个黑色和白色的球;路人乙想知道袋中球的情况,就从袋中有放回式取球,一共取了10次,有7次是白球,3次是黑球。问白球的比例是多少?

在这个例子中,每一次实验都是服从伯努利分布,我们设白球的概率为 ,每一次实验可以表示为 ,样本为 ,似然函数为: ,取对数,求最大值为 = 0.7

最大后验估计(MAP)

Maximum A Posteriori Estimation

在最大似然估计的例子中,如果样本数量不够多,其实存在着很大的问题

MLE简单又客观,但是过分的客观有时会导致过拟合(Over fitting)。在样本点很少的情况下,MLE的效果并不好

一个最简单的例子就是,一个伯努利模型,我们知道通过最大似然估计得到的先验值为 ,那如果实验过程中,全部出现1或者0,那么估计出的参数显然是不对的

最大似然估计认为使似然函数 最大的参数 θ 即为最好的 θ ;

最大后验估计认为使 最大的参数 θ 即为最好的 θ ;

最大似然估计可以看作是一种特殊的最大后验估计,将 θ 看作是固定的, =1 。

最大后验概率估计的公式表示:(P(D)是一个常数,与 θ 无关)

要求解MAP,还需要知道参数的先验分布

正态分布

假设高斯分布方差已知,现在要估计均值,将均值记为 θ

每一个样本的概率可以表示为

假设 θ 服从高斯分布,,则

求解得到

例子

路人甲在一个不透明的袋里放了若干个黑色和白色的球,他感觉白色球更多;路人乙想知道袋中球的情况,就从袋中有放回式取球,一共取了10次,有7次是白球,3次是黑球。问白球的比例是多少?

每一次实验都是服从伯努利分布,我们设白球的概率为 θ ,所以每一次实验可以表示为: 样本为

路人甲的感觉是白色球更多,需要给出一个 θ 的分布,假设 P(θ) = 2θ

后验概率函数:
取对数,求最大值 θ = 0.73

当样本个数无穷多的时候,MAP上会逼近MLE,因为样本足够多了,就不需要先验了,或者比起先验更相信样本。

贝叶斯估计

最大似然估计和最大后验估计都是估计了参数的具体值,但更令人信服的其实是参数的分布,知道参数在取每个值时的概率。

与最大后验估计一样,需要用到贝叶斯定理

需要知道先验分布 P(θ),但此时不再求 ,而要求出

这里如果先验分布十分复杂,上式会很难求解(因为要分母积分),所以一般会选择共轭先验。

二项分布参数的共轭先验是Beta分布,多项式分布参数的共轭先验是Dirichlet分布,指数分布参数的共轭先验是Gamma分布,⾼斯分布均值的共轭先验是另⼀个⾼斯分布,泊松分布的共轭先验是Gamma分布。

最大后验估计和贝叶斯估计也存在一个问题,实际应用场景中的先验概率不是那么好求,很多都是拍脑袋决定的。一旦是拍脑袋决定的,自然也就不准了,先验概率不准,那么计算出的后验概率也就相应的不准了

贝叶斯估计用来预测新测量数据的概率,对于新出现的数据 x

例子

路人甲在一个不透明的袋里放了若干个黑色和白色的球,他感觉白色球更多;路人乙想知道袋中球的情况,就从袋中有放回式取球,一共取了10次,有7次是白球,3次是黑球。问白球的比例是多少?

每一次实验都是服从伯努利分布,我们设白球的概率为 θ ,所以每一次实验可以表示为: 样本为

路人甲的感觉是白色球更多,需要给出一个 θ 的分布,假设

后验概率函数

得到了参数的后验分布情况,得到

计算步骤

  1. 根据贝叶斯定理,计算后验概率P(θ|D)

  1. 计算新样本估计

总结

MLE、MAP是选择相对最好的一个模型, 贝叶斯方法则是通过观测数据来估计后验分布,并通过后验分布做群体决策,所以后者的目标并不是在去选择某一个最好的模型,而是去评估每一个模型的好坏。

参考于:一文解释 参数估计 - 知乎 (zhihu.com)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值