频率派VS贝叶斯派

最新推荐文章于 2025-04-03 20:14:17 发布

酷暑冷冰

最新推荐文章于 2025-04-03 20:14:17 发布

阅读量120

点赞数

分类专栏：机器学习文章标签：机器学习人工智能统计学算法

本文链接：https://blog.csdn.net/weixin_43913077/article/details/108810909

版权

机器学习专栏收录该内容

6 篇文章

订阅专栏

Introduction

对概率的诠释有两大学派，一种是贝叶斯派，一种是概率派。对于观测到的样本，我们以后均采用下面的标记：
$(x_1,x_2, ...x_n)^{T}=\begin{pmatrix} x_{11} &x_{12} &... &x_{1p} \\ x_{21}&x_{22} & ... &x_{2p} \\ ...& & & \\ x_{N1}&x_{N2} &... &x_{Np}s \end{pmatrix}_{N*p}$
其中，每一个样本 $x_{i}$ 都是p维的向量，一共有N个样本。每个样本都由p $(x|\theta)$ 产生， $\theta$ 是隐含的参数。

频率派的观点

频率派认为，在样本产生的过程中，参数 $\theta$ 是一个常量。对N个样本来说， $p(X|\theta) \underset{\text{iid}}{=}\prod_{i=1}^{N}p(x_i|\theta)$ 。参数 $\theta$ 可以用最大对数似然MLE来产生：
$KaTeX parse error: No such environment: split at position 8: \begin{̲s̲p̲l̲i̲t̲}̲ \theta_{MLE}&=…$

贝叶斯派的观点

贝叶斯派认为参数 $\theta$ 服从预设的先验分布x~ $p(\theta)$ 。于是根据贝叶斯定理依赖观测集参数的后验可以写成：
$p(\theta|X)=\frac{p(X|\theta)p(\theta)}{p(X)}=\frac{p(X|\theta)p(\theta)}{\int p(X|\theta)p(\theta)d\theta}$
后验概率 $p(\theta|X)$ 最大的可能是后验 $\theta$ 中的众数，也就是 $p(\theta|X)$ 最大值时的 $\theta$ 的值，即： $\mathop{argmax}_{\theta} p(\theta|X)$
所以，参数 $\theta$ 的后验为：
$\theta_{MAP}=\mathop{argmax}_{\theta}p(\theta|X)=\mathop{argmax}_{\theta}p(X|\theta)p(\theta)$
其中， $\int p(\theta|X)p(\theta)d\theta$ 是一个固定的值，在 $\mathop{argmax}_{}$ 运算中可以省略。 $p(X|\theta)$ 为似然， $p(\theta)$ 为先验分布。

求出后验概率 $p(\theta)$ 以后，可以求出贝叶斯估计的确定的值：
$p(\theta|X)=\frac{p(X|\theta)p(\theta)}{\int p(X|\theta)p(\theta)d\theta}$
贝叶斯估计可用于求贝叶斯预测：已知原数据X，求出新的样本 $\widetilde{x}$ 的概率 $p(\widetilde{x}|X)$ 。
$KaTeX parse error: No such environment: split at position 8: \begin{̲s̲p̲l̲i̲t̲}̲ p(\widetilde{x…$
其中，（在参数 $\theta$ 已知的情况下） $\widetilde{x}$ 与 $X$ 相互独立； $p(\widetilde{x}|\theta)$ 是模型， $p(\theta|X)$ 是后验分布。

小结

频率派和贝叶斯派分别给出了一系列的机器学习算法。频率派的观点导出了一系列的统计机器学习算法而贝叶斯派导出了概率图理论。在应用频率派的 MLE 方法时最优化理论占有重要地位。而贝叶斯派的算法无论是后验概率的建模还是应用这个后验进行推断时积分占有重要地位。因此采样积分方法如 MCMC、蒙特卡罗有很多应用。