16、参数估计

C--G

已于 2023-03-08 18:09:56 修改

阅读量332

点赞数

分类专栏： # 机器学习-算法入门文章标签：机器学习概率论人工智能 Powered by 金山文档

于 2023-03-08 11:45:54 首次发布

本文链接：https://blog.csdn.net/weixin_50973728/article/details/129396309

版权

机器学习-算法入门专栏收录该内容

18 篇文章 4 订阅

订阅专栏

概率基本定义

先验分布： $\text{[math]}$

似然函数： $\text{[math]}$

后验分布： $\text{[math]}$

贝叶斯公式： $\text{[math]}$ ，其中 $\text{[math]}$

后验分布 = 似然函数 × 先验分布 / P(D)

贝叶斯公式

假设，现在有两个一定概率发生的事件A和B，且它们之间存在一定的关系

P(A) 表示事件A发生的概率

P(B) 表示事件A发生的概率

P(A|B) 表示事件B已经发生的前提下，事件A发生的概率

P(B|A) 表示事件A已经发生的前提下，事件B发生的概率

$\text{[math]}$

极大似然估计（MLE）

极大似然估计方法（Maximum Likelihood Estimate，MLE）也称为最大概似估计或最大似然估计，是求估计的方法之一

简单来讲，极大似然估计就是给定模型，然后通过收集数据，求该模型的参数。

似然函数形式： $\text{[math]}$

连乘不好求解，通常会进行一个对数变换，转换为累加：

$\text{[math]}$

伯努利分布

每一个样本的概率可以表示为： $\text{[math]}$ ,x=0 or 1, $\text{[math]}$ 是成功的概率

假设有n个样本， $\text{[math]}$

对数最大似然函数表达式：

对上式求导，解得当 $\text{[math]}$ ，似然函数取得最大值

正态分布

样本概率表示为： $\text{[math]}$

假设有n个样本， $\text{[math]}$

对数最大似然函数表达式：

对上式求导，解得当 $\text{[math]}$ ，似然函数取得最大值

例子

路人甲在一个不透明的袋里放了若干个黑色和白色的球；路人乙想知道袋中球的情况，就从袋中有放回式取球，一共取了10次，有7次是白球，3次是黑球。问白球的比例是多少？

在这个例子中，每一次实验都是服从伯努利分布，我们设白球的概率为 $\text{[math]}$ ,每一次实验可以表示为 $\text{[math]}$ ,样本为 $\text{[math]}$ ，似然函数为： $\text{[math]}$ ,取对数，求最大值为 $\text{[math]}$ = 0.7

最大后验估计（MAP）

Maximum A Posteriori Estimation

在最大似然估计的例子中，如果样本数量不够多，其实存在着很大的问题

MLE简单又客观，但是过分的客观有时会导致过拟合(Over fitting)。在样本点很少的情况下，MLE的效果并不好

一个最简单的例子就是，一个伯努利模型，我们知道通过最大似然估计得到的先验值为 $\text{[math]}$ ，那如果实验过程中，全部出现1或者0，那么估计出的参数显然是不对的

最大似然估计认为使似然函数 $\text{[math]}$ 最大的参数 θ 即为最好的 θ ；

最大后验估计认为使 $\text{[math]}$ 最大的参数 θ 即为最好的 θ ；

最大似然估计可以看作是一种特殊的最大后验估计，将 θ 看作是固定的， $\text{[math]}$ =1 。

最大后验概率估计的公式表示：（P(D)是一个常数，与 θ 无关）

要求解MAP，还需要知道参数的先验分布

正态分布

假设高斯分布方差已知，现在要估计均值，将均值记为 θ

每一个样本的概率可以表示为 $\text{[math]}$

假设 θ 服从高斯分布, $\text{[math]}$ ,则 $\text{[math]}$

求解得到 $\text{[math]}$

例子

路人甲在一个不透明的袋里放了若干个黑色和白色的球，他感觉白色球更多；路人乙想知道袋中球的情况，就从袋中有放回式取球，一共取了10次，有7次是白球，3次是黑球。问白球的比例是多少？

每一次实验都是服从伯努利分布，我们设白球的概率为 θ ，所以每一次实验可以表示为： $\text{[math]}$ 样本为 $\text{[math]}$

路人甲的感觉是白色球更多，需要给出一个 θ 的分布，假设 P(θ) = 2θ

后验概率函数： $\text{[math]}$
取对数，求最大值 θ = 0.73

当样本个数无穷多的时候，MAP上会逼近MLE，因为样本足够多了，就不需要先验了，或者比起先验更相信样本。

贝叶斯估计

最大似然估计和最大后验估计都是估计了参数的具体值，但更令人信服的其实是参数的分布，知道参数在取每个值时的概率。

与最大后验估计一样，需要用到贝叶斯定理

$\text{[math]}$

需要知道先验分布 P(θ),但此时不再求 $\text{[math]}$ ,而要求出 $\text{[math]}$

这里如果先验分布十分复杂，上式会很难求解（因为要分母积分），所以一般会选择共轭先验。

二项分布参数的共轭先验是Beta分布，多项式分布参数的共轭先验是Dirichlet分布，指数分布参数的共轭先验是Gamma分布，⾼斯分布均值的共轭先验是另⼀个⾼斯分布，泊松分布的共轭先验是Gamma分布。

最大后验估计和贝叶斯估计也存在一个问题，实际应用场景中的先验概率不是那么好求，很多都是拍脑袋决定的。一旦是拍脑袋决定的，自然也就不准了，先验概率不准，那么计算出的后验概率也就相应的不准了

贝叶斯估计用来预测新测量数据的概率，对于新出现的数据 x

例子

路人甲在一个不透明的袋里放了若干个黑色和白色的球，他感觉白色球更多；路人乙想知道袋中球的情况，就从袋中有放回式取球，一共取了10次，有7次是白球，3次是黑球。问白球的比例是多少？

每一次实验都是服从伯努利分布，我们设白球的概率为 θ ，所以每一次实验可以表示为： $\text{[math]}$ 样本为 $\text{[math]}$

路人甲的感觉是白色球更多，需要给出一个 θ 的分布，假设 $\text{[math]}$
$\text{[math]}$
后验概率函数