【模式识别、朴素贝叶斯方法】贝叶斯估计

最新推荐文章于 2024-09-13 17:02:14 发布

阿珍爱上了阿强binz

最新推荐文章于 2024-09-13 17:02:14 发布

阅读量497

点赞数 2

分类专栏：模式识别文章标签：机器学习人工智能数据分析模式识别

本文链接：https://blog.csdn.net/weixin_49975462/article/details/109207200

版权

模式识别专栏收录该内容

4 篇文章 0 订阅

订阅专栏

引言

参数估计问题是统计学中非常经典的问题，对于此类问题，我们将主要讨论两种最常用和很有效的方法,也就是:最大似然估计和贝叶斯估计。

最大似然估计(MLE)与最大后验概率估计(MAP)非常相似，具体内容可查看：【模式识别、朴素贝叶斯方法】最大似然估计（MLE）、最大后验概率估计（MAP）

虽然说最大似然估计和贝叶斯估计方法得到的结果通常是很接近的,但这两个方法的本质却有很大差别。最大似然估计(和最大后验概率估计)把待估计的参数看作是确定性的量,只是其取值未知,最佳估计就是使得产生已观测到的样本(即训练样本)的概率为最大的那个值。与此不同的是,贝叶斯估计则把待估计的参数看成是符合某种先验概率分布的随机变量。对样本进行观测的过程,就是把先验概率密度转化为后验概率密度,这样就利用样本的信息修正了对参数的初始估计值。在贝叶斯估计中,一个典型的效果就是,每得到新的观测样本,都使得后验概率密度函数变得更加尖锐,使其在待估参数的真实值附近形成最大的尖峰。这个现象就称为“贝叶斯学习”过程。无论使用何种参数估计方法,在参数估计完成后,我们都使用后验概率作为分类准则。

贝叶斯估计

贝叶斯学习的核心问题为：已知一组训练样本D,这些样本都是从固定但未知的概率密度函数p(x)中独立抽取的,要求根据这些样本估计后验概率p(x|D)。

如引言部分所讲，在贝叶斯估计算法中，唯一未知的是参数θ的值，参数的θ的先验分布 $P(\theta)$ 我们假设是已知的，因为 $p(\pmb X)$ 的形式我们是已知的只有参数未知所以 $p(\pmb X|\theta)$ 也是完全确定的。同时我们还知道观测到的样本集D，D使得我们能够把先验概率转化为参数 $\theta$ 的后验分布 $p(\theta|D)$ ，我们希望后验概率密度函数在待估参数θ的真实值附近形成最大的尖峰。 $p(\theta|D)$ 计算如下：
$p(\theta|D)=\frac{P(D|\theta)P(\theta)}{P(D)}=\alpha \prod_{k=1}^nP(x_k|\theta)P(\theta)$
P(D)求解非常简单，将它分离出来，这里的α便是一个依赖于D的系数，在此时，求出 $\theta=\arg \max_{\theta} \prod_{k=1}^nP(x_k|\theta)P(\theta)$ 即是最大后验概率估计（MAP），当参数θ是均匀分布时就是最大似然估计。