概率密度函数的参数估计：最大似然估计、贝叶斯估计与贝叶斯学习

zfoox

已于 2023-04-21 11:37:44 修改

阅读量4.2k

点赞数 6

分类专栏： CV 文章标签：概率论机器学习

于 2021-04-07 01:36:31 首次发布

本文链接：https://blog.csdn.net/xfijun/article/details/115436134

版权

CV 专栏收录该内容

31 篇文章 12 订阅

订阅专栏

概率密度函数的参数估计：最大似然估计、贝叶斯估计与贝叶斯学习

问题描述
1. 最大似然估计
2. 贝叶斯参数估计
3. 顺序(sequential)贝叶斯学习

问题描述

$\qquad$ 在模式分类问题中，贝叶斯判决的核心是通过贝叶斯公式计算后验概率：

$\qquad\qquad p(\omega_i|\boldsymbol x)=\dfrac{p(\boldsymbol x|\omega_i)p(\omega_i)}{\sum\limits_{j=1}^cp(\boldsymbol x|\omega_j)p(\omega_j)}$

$\qquad$ 其中， $p(\omega_i)$ 为先验概率， $p(\boldsymbol x|\omega_i)$ 为类条件概率密度。

例: 假设单位某个人数较多部门的“男性职工( $\omega_1$ 类)”人数为 $n_1$ ，“女性职工( $\omega_2$ 类)”人数为 $n_2$ ，用身高 $x_1$ 和体重 $x_2$ 作为特征向量 $\boldsymbol x=[x_1,x_2]^T$ 。
　
先验概率：　　　　 $p(\omega_1)=\dfrac{n_1}{n_1+n_2}$ 和 $p(\omega_2)=\dfrac{n_2}{n_1+n_2}$
　
类条件概率密度：　 $\begin{cases}p(\boldsymbol x|\omega_1)&\text{\textcolor{blue}{男性}职工的(身高,体重)分布}\\p(\boldsymbol x|\omega_2)&\text{\textcolor{blue}{女性}职工的(身高,体重)分布}\end{cases}$
　
贝叶斯判决：将新样本 $\boldsymbol x^{\ast}$ 判为最大后验概率所对应的类别 $\displaystyle\argmax_{j}\ p(\omega_j|\boldsymbol x^{\ast})$ （“最小错误概率准则”）
考虑该单位其他部门的某个人，通过测量其身高、体重组成特征向量 $\boldsymbol x^{\ast}=[x_1^{\ast},x_2^{\ast}]^T$ 来判断是男性( $\omega_1$ 类)还是女性( $\omega_2$ 类)。若 $p(\omega_1|\boldsymbol x^{\ast})>p(\omega_2|\boldsymbol x^{\ast})$ ，则认为是男性；否则，认为是女性。

$\qquad$ 显然，如何有效地估计“类条件概率密度函数” $p(\boldsymbol x|\omega_i)$ 最为关键，常用的估计方法有：参数方法（最大似然估计，贝叶斯估计，递归贝叶斯学习）、非参数方法（ $\text{Parzen}$ 窗， $\text{kNN}$ ）以及朴素贝叶斯等方法。

在上例中，若男性职工( $\omega_1$ 类)样本集为 $\mathcal D_1=\{\boldsymbol x_1,\cdots,\boldsymbol x_{n_1}\}$
　　　　　　女性职工( $\omega_2$ 类)样本集为 $\mathcal D_2=\{\boldsymbol x_{{n_1+1}},\cdots,\boldsymbol x_{n_1+n_2}\}$ 　
通过已观测到的样本来计算“类条件概率密度”就是要计算 $p(\boldsymbol x|\omega_1,\mathcal D_1)$ 和 $p(\boldsymbol x|\omega_2,\mathcal D_2)$

$\qquad$ 不失一般性，假设针对某个特定的类 $\omega$ 有 $n$ 个观测数据 $\mathcal D=\{\boldsymbol x_1, \cdots, \boldsymbol x_n\}$ 。“类条件概率密度函数估计”问题就变成了，根据 $\omega$ 类的观测数据集 $\mathcal D$ 来估计“条件概率密度函数” $p(\boldsymbol x|\mathcal D)$ 。

$\qquad(1)$ 若观测数据 $\mathcal D$ 也固定不变，就可以把“条件概率密度函数” $p(\boldsymbol x|\mathcal D)$ 简记为“概率密度函数” $p(\boldsymbol x)$ 。

$\qquad(2)$ 若概率密度函数的参数形式 $p(\boldsymbol x|\boldsymbol\theta)$ 已知、而参数 $\boldsymbol\theta$ 未知，估计“概率密度函数”的问题就转变为对 $p(\boldsymbol x|\boldsymbol\theta)$ 的参数 $\boldsymbol\theta$ 的估计问题。

在上例中，若假设男性和女性的类条件概率密度函数 $p(\boldsymbol x|\omega_i,\mathcal D_i,\boldsymbol\theta_i)$ 都服从某个正态分布：
此时， $p(\boldsymbol x|\omega_1,\mathcal D_1,\boldsymbol\theta_1)\sim\mathcal N(\boldsymbol\mu_1,\Sigma_1)$ ，其中参数 $\boldsymbol\theta_1=(\boldsymbol\mu_1,\Sigma_1)$
　　　 $p(\boldsymbol x|\omega_2,\mathcal D_2,\boldsymbol\theta_2)\sim\mathcal N(\boldsymbol\mu_2,\Sigma_2)$ ，其中参数 $\boldsymbol\theta_2=(\boldsymbol\mu_2,\Sigma_2)$
　
已知某个特定的类 $\omega$ 服从正态分布 $\mathcal N(\boldsymbol\mu,\Sigma)$ ，只是参数 $\boldsymbol\theta=(\boldsymbol\mu,\Sigma)$ 未知，针对该类的观测数据集固定为 $\mathcal D$ ，那么估计该类的“类条件概率密度函数” $p(\boldsymbol x|\omega,\mathcal D,\boldsymbol\theta)$ 就可以简记为估计 $p(\boldsymbol x|\boldsymbol\theta)\sim\mathcal N(\boldsymbol\mu,\Sigma)$ 的参数 $\boldsymbol\theta=(\boldsymbol\mu,\Sigma)$ 的值。

$\qquad$

1. 最大似然估计

$\qquad$ 已知观测数据集 $\mathcal D=\{\boldsymbol x_1, \cdots, \boldsymbol x_n\}$ ，同时假设概率密度函数的参数形式 $p(\boldsymbol x|\boldsymbol\theta)$ 是已知的、而参数 $\boldsymbol\theta$ 未知。基于观测数据集 $\mathcal D$ 对概率密度函数 $p(\boldsymbol x|\boldsymbol\theta)$ 的参数 $\boldsymbol\theta$ 进行最大似然估计时，参数 $\boldsymbol\theta$ 是一个确定而未知的量。

$\qquad(1)$ 由于观测数据 $\mathcal D=\{\boldsymbol x_1, \cdots, \boldsymbol x_n\}$ 是独立抽取的，可定义观测数据集 $\mathcal D$ 的似然函数：

$\qquad\qquad\qquad p(\mathcal D|\boldsymbol\theta)=p(\boldsymbol x_1, \cdots, \boldsymbol x_n|\boldsymbol\theta)=\prod\limits_{i=1}^n p(\boldsymbol x_i|\boldsymbol\theta)$

$\qquad(2)$ 当参数 $\boldsymbol\theta$ 取不同的值，显然 $p(\mathcal D|\boldsymbol\theta)$ 的值也会有不同的变化。

$\qquad$ 　　若参数 $\boldsymbol\theta=\hat{\boldsymbol\theta}$ 时， $p(\mathcal D|\hat{\boldsymbol\theta})=\displaystyle\max_{\boldsymbol\theta}\ p(\mathcal D|\boldsymbol\theta)$ ，那么 $\hat{\boldsymbol\theta}$ 就是概率密度函数参数估计的最大似然解，由观测数据集 $\mathcal D$ 估计出的概率密度函数就为 $p(\boldsymbol x|\hat{\boldsymbol\theta})$ 。

$\qquad$
最大似然估计的求解

$\quad(1)$ 定义对数似然函数：

$\qquad\qquad\quad\quad \ell(\boldsymbol\theta)=\ln p(\mathcal D|\boldsymbol\theta)$

$\quad(2)$ 最大似然解：

$\qquad\qquad\quad\quad\hat{\boldsymbol\theta}=\displaystyle\argmax_{\boldsymbol\theta}\ p(\mathcal D|\boldsymbol\theta)$

$\quad\quad\quad$ 或者说 $p(\mathcal D|\hat{\boldsymbol\theta})=\displaystyle\max_{\boldsymbol\theta}\ p(\mathcal D|\boldsymbol\theta)$

$\quad(3)$ 通过计算 $\nabla_{\boldsymbol\theta} \ell(\boldsymbol\theta)=0$ （对每个 $\theta_i$ 求偏导）求得 $\hat{\boldsymbol\theta}$ 的值：

$\qquad\qquad\quad\quad\nabla_{\boldsymbol\theta} \ell(\boldsymbol\theta)=\displaystyle\sum_{i=1}^n \nabla_{\boldsymbol\theta} \ln p(\boldsymbol x_i|\boldsymbol\theta)=0$

$\quad\quad\quad$ 或者说 $\dfrac{\partial\ell(\boldsymbol\theta)}{\partial\theta_i}=0,\quad\forall\ i$

$\quad$ 参数 $\boldsymbol\theta$ 的最大似然解 $\hat{\boldsymbol\theta}$ 实际上是一个“完全由观测样本决定的统计量”，也就是说：

$\qquad\qquad\hat{\boldsymbol\theta}=g(\boldsymbol x_1, \cdots, \boldsymbol x_n)$

“线性回归参数模型”的例子，可参考《线性模型参数求解的最大似然估计》

例1：以一维情况为例，假设概率密度函数的参数形式 $p(x|\textcolor{red}{\theta})\sim\mathcal N(\textcolor{red}{\mu},\sigma^2)$ ，已知方差 $\sigma^2=18^2$ ，未知参数 $\theta=\mu$ （真实值为 $20$ ）。

from scipy.stats import multivariate_normal
from scipy.stats import norm
import numpy as np
import matplotlib.pyplot as plt
mean = 20
std = 18
var = std**2
num = 100
x = np.linspace(-50, 100, num*2, endpoint=False)
y = norm.pdf(x, mean, std)
y1 = multivariate_normal.pdf(x, mean, var)
plt.figure(1, figsize=(8,4))
plt.plot(x, y), plt.xlabel('x'), plt.ylabel('y')
plt.title('$\mu=20, \sigma=18^2$')
# 生成数据集 D，共有num个样本点
rx = mean + std * np.random.randn(num)
ry = np.zeros_like(rx)
plt.plot(rx, ry, 'r.', markersize='3')
# MLE (假设均值未知，方差已知)
mu = np.linspace(mean-10, mean+10, 100)
likelihood = mu.copy()
# 计算数据集 D 对不同均值的似然值
for i in range(len(mu)):
    likelihood[i] = np.prod(norm.pdf(rx, mu[i], std))
mean_ml = mu[np.argmax(likelihood)]
print(mean_ml)
plt.figure(2, figsize=(8,4))
plt.plot(mu, likelihood)# 显示不同均值时的似然函数值，横坐标为未知参数（均值）
plt.title('$\hat\mu=$'+str(mean_ml))
plt.show()

运行结果：
在这里插入图片描述

Matlab版本可参考《正态分布的最大似然估计》

$\qquad$

2. 贝叶斯参数估计

$\qquad$ 参数方法假设概率密度函数的参数形式 $p(\boldsymbol x|\boldsymbol\theta)$ 已知，参数向量 $\boldsymbol\theta$ 未知。

$\qquad(1)$ “贝叶斯参数估计”方法将参数向量 $\boldsymbol\theta$ 看成是一个随机向量

$\qquad$ 　　在观测任何训练样本之前，我们对参数向量 $\boldsymbol\theta$ 的全部了解只有其先验概率 $p(\boldsymbol\theta)$

$\qquad(2)$ 根据先验概率 $p(\boldsymbol\theta)$ 抽取出一个参数向量 $\boldsymbol\theta=\hat{\boldsymbol\theta}$ ，从而确定了概率密度函数 $p(\boldsymbol x|\hat{\boldsymbol\theta})$

$\qquad$ 　　若观测数据 $\mathcal D=\{\boldsymbol x_1, \cdots, \boldsymbol x_n\}$ 是由这个概率密度函数 $p(\boldsymbol x|\hat{\boldsymbol\theta})$ 经过 $n$ 次独立抽取的
$\qquad$ 　　就可以求出观测数据集 $\mathcal D$ 关于参数向量 $\hat{\boldsymbol\theta}$ 的似然值 $p(\mathcal D|\hat{\boldsymbol\theta})=\prod\limits_{i=1}^n p(\boldsymbol x_i|\hat{\boldsymbol\theta})$

$\qquad(3)$ 应用贝叶斯公式，可求出当前观测数据集 $\mathcal D$ 关于参数向量 $\boldsymbol\theta=\hat{\boldsymbol\theta}$ 的后验概率

$\qquad\qquad\qquad p(\boldsymbol\theta|\mathcal D)=\dfrac{p(\mathcal D|\boldsymbol\theta)p(\boldsymbol\theta)}{\displaystyle\int p(\mathcal D|\boldsymbol\theta)p(\boldsymbol\theta)d\boldsymbol\theta}$

$\qquad$ 　　若 $p(\hat{\boldsymbol\theta}|\mathcal D)=\max p(\boldsymbol\theta|\mathcal D)$ ，且 $p(\boldsymbol\theta|\mathcal D)$ 在 $\hat{\boldsymbol\theta}$ 附近形成一个显著的尖峰
$\qquad$ 　　就可以认为概率密度函数 $p(\boldsymbol x)=p(\boldsymbol x|\mathcal D)\approx p(\boldsymbol x|\hat{\boldsymbol\theta})$

$\qquad\begin{aligned}p(\boldsymbol x|\mathcal D)&=\displaystyle\int p(\boldsymbol x,\boldsymbol\theta|\mathcal D)d\boldsymbol\theta \\ &= \displaystyle\int p(\boldsymbol x|\boldsymbol\theta,\mathcal D)p(\boldsymbol\theta|\mathcal D)d\boldsymbol\theta \\ &= \displaystyle\int p(\boldsymbol x|\boldsymbol\theta)p(\boldsymbol\theta|\mathcal D)d\boldsymbol\theta\qquad\text{训练样本集 }\mathcal D \text{与测试样本}\boldsymbol x \text{ 的选取是独立抽取的}\end{aligned}$
　
$\qquad$ 若 $p(\boldsymbol\theta|\mathcal D)$ 正好在 $\hat{\boldsymbol\theta}$ 附近形成一个显著的尖峰， $p(\hat{\boldsymbol\theta}|\mathcal D)$ 的值比其他位置的 $p(\boldsymbol\theta|\mathcal D)$ 都大很多，比如 $p(\boldsymbol\theta|\mathcal D)\to 0,\forall\ \boldsymbol\theta\neq\hat{\boldsymbol\theta}$ ，此时，显然有 $p(\boldsymbol x|\mathcal D)\approx p(\boldsymbol x|\hat{\boldsymbol\theta})$
　
$\qquad$ 最理想的情况是 $p(\boldsymbol\theta|\mathcal D)=\delta(\boldsymbol\theta-\hat{\boldsymbol\theta})$ ，此时 $p(\boldsymbol x|\mathcal D)=p(\boldsymbol x|\hat{\boldsymbol\theta})$

$\qquad$
例2：以一维情况为例，假设概率密度函数的参数形式 $p(x|\textcolor{red}{\theta})\sim\mathcal N(\textcolor{red}{\mu},\sigma^2)$ ，且方差 $\sigma^2$ 已知，未知参数 $\theta=\mu$ 。

$\quad(1)$ 贝叶斯参数估计方法认为 $\theta$ 是一个随机变量，并假设 $p(\theta)\sim\mathcal N(\mu_0,\sigma_0^2)$ ，其中 $\mu_0,\sigma_0^2$ 是已知的

$\quad(2)$ 根据 $p(\theta)\sim\mathcal N(\mu_0,\sigma_0^2)$ 抽取一个具体的 $\mu$ 值（比如取 $\mu=\hat\mu$ ），也就确定了概率密度函数 $p(x|\textcolor{red}{\theta})\sim\mathcal N(\hat\mu,\sigma^2)$ ，并认为观测数据 $\mathcal D=\{x_1, \cdots, x_n\}$ 是根据该概率分布独立地抽取出的 $n$ 个样本，从而计算出观测数据集 $\mathcal D$ 关于参数向量 $\hat\mu$ 的似然值 $p(\mathcal D|\hat\mu)=\prod\limits_{i=1}^n p(x_i|\hat\mu)$

$\quad(3)$ 由贝叶斯公式，可知 $p(\mu|\mathcal D)$ 同样服从正态分布

$\qquad\quad p(\mu|\mathcal D)=\dfrac{p(\mathcal D|\mu)p(\mu)}{\int p(\mathcal D|\mu)p(\mu)d\mu}=\cdots=\dfrac{1}{\sqrt{2\pi}\sigma_n}\exp\left\{-\dfrac{1}{2}\left(\dfrac{\mu-\mu_n}{\sigma_n}\right)^2\right\}$

$\qquad$ 其中， $\begin{cases}\dfrac{1}{\sigma_n^2}=\dfrac{n}{\sigma^2}+\dfrac{1}{\sigma_0^2}\\\\\dfrac{\mu_n}{\sigma_n^2}=\dfrac{n}{\sigma_n^2}\hat\mu_n+\dfrac{\mu_0}{\sigma_0^2}\end{cases}$ ， $\hat\mu_n=\dfrac{1}{n}\displaystyle\sum_{k=1}^n x_k$ 为样本均值

$\qquad$ 从而得到： $\begin{cases}\mu_n=\left(\dfrac{n\sigma_0^2}{n\sigma_0^2+\sigma^2}\right)\hat\mu_n+\dfrac{\mu_0\sigma^2}{n\sigma_0^2+\sigma^2}\\\\\sigma_n^2=\dfrac{\sigma_0^2\sigma^2}{n\sigma_0^2+\sigma^2}\end{cases}$

详细推导过程见《Pattern Classification》3.4节公式（26）~（35）
贝叶斯参数估计通常需要满足共轭性 $\text{(conjugacy)}$ 的条件，也就是“后验概率（正⽐于先验和似然函数的乘积）与先验概率有着相同的函数形式”，可参考《Pattern Recognition and Machine Learning》第2章

在这里插入图片描述

取自于《Pattern Classification》Fig 3.2（左图为二维示意图，右图为三维示意图）
　
可以看出，观测样本数 $n$ 越大，越使得 $p(\mu|\mathcal D)$ 形成一个显著的尖峰，也就表示未知参数 $\mu$ 的值更多可能出现 $\mu^{\ast}=\argmax_{\mu}\ p(\mu|\mathcal D)$ 的附近（当 $n\to\infty$ 时， $\sigma_n^2\to0$ ，尖峰越显著）。
显然， $\mu_n\rightarrow\hat\mu_n\ (n\to\infty)$ 趋于样本均值， $\sigma_n^2=\dfrac{\sigma_0^2\sigma^2}{n\sigma_0^2+\sigma^2}\rightarrow0\ (n\to\infty)$

$\qquad$

3. 顺序(sequential)贝叶斯学习

$\qquad$ 贝叶斯学习，是一个“增量学习 $\text{(incremental\ learning)}$ ”过程。其主要特点是，学习过程随着观测数据的不断获取而不断进行下去。

$\qquad(1)$ 若 $n - 1$ 时刻观测样本集为 $\mathcal D^{n-1}=\{\boldsymbol x_1, \cdots, \boldsymbol x_{n-1}\}$ ，随着第 $n$ 时刻观测到数据 $\boldsymbol x_n$ ，观测样本集更新为 $\mathcal D^{n}=\mathcal D^{n-1}\cup\{\boldsymbol x_n\}=\{\boldsymbol x_1, \cdots, \boldsymbol x_{n-1},\boldsymbol x_n\}$

$\qquad(2)$ 由于观测样本集 $\mathcal D$ 一直在更新， $p(\boldsymbol\theta|\mathcal D)$ 的值也一直在更新，直到 $p(\boldsymbol\theta|\mathcal D^n)$ 随着 $n\to\infty$ 而形成一个显著的尖峰

$\qquad$
贝叶斯学习的实现步骤如下：

$(1)$ 第 $0$ 时刻

$\qquad$ 观测数据集 $\mathcal D^{0}=\varnothing$ ，定义 $p(\boldsymbol\theta|\mathcal D^{0})=p(\boldsymbol\theta)$ ， $p(\boldsymbol\theta)$ 是未知参数向量的先验概率。

$(2)$ 第 $1$ 时刻

$\qquad$ 从 $p(\boldsymbol\theta|\mathcal D^{0})$ 中抽取一个 $\boldsymbol\theta$ 值用于确定概率密度函数 $p(\boldsymbol x|\boldsymbol\theta)$ ，同时观测第一个数据 $\boldsymbol x_1$ ，观测数据集更新为 $\mathcal D^{1}=\{\boldsymbol x_1\}$ ，然后计算似然函数 $p(\boldsymbol x_1|\boldsymbol\theta)$ ，最后使用贝叶斯公式计算后验概率：

$\qquad\qquad p(\boldsymbol\theta|\mathcal D^{1})=\dfrac{p(\boldsymbol x_1|\boldsymbol\theta)\textcolor{crimson}{p(\boldsymbol\theta|\mathcal D^{0})}}{\displaystyle\int p(\boldsymbol x_1|\boldsymbol\theta)\textcolor{crimson}{p(\boldsymbol\theta|\mathcal D^{0})}d\boldsymbol\theta}$ ，此处 $p(\boldsymbol\theta|\mathcal D^{0})=p(\boldsymbol\theta)$

与上节中描述的贝叶斯参数估计不同的是，该时刻的后验概率 $p(\boldsymbol\theta|\mathcal D^{1})$ 将作为下一时刻贝叶斯公式中的先验概率，也就是先验概率由 $p(\boldsymbol\theta|\mathcal D^{0})=p(\boldsymbol\theta)$ 更新为 $p(\boldsymbol\theta|\mathcal D^{1})$

$(3)$ 第 $2$ 时刻

$\qquad$ 从 $p(\boldsymbol\theta|\mathcal D^{1})$ 中抽取一个 $\boldsymbol\theta$ 值用于确定概率密度函数 $p(\boldsymbol x|\boldsymbol\theta)$ ，同时观测第二个数据 $\boldsymbol x_2$ ，观测数据集更新为 $\mathcal D^{2}=\{\boldsymbol x_1,\boldsymbol x_2\}$ ，然后计算数据 $\boldsymbol x_2$ 的似然函数 $p(\boldsymbol x_2|\boldsymbol\theta)$ ，最后使用贝叶斯公式计算后验概率：

$\qquad\qquad p(\boldsymbol\theta|\mathcal D^{2})=\dfrac{p(\boldsymbol x_2|\boldsymbol\theta)\textcolor{crimson}{p(\boldsymbol\theta|\mathcal D^{1})}}{\displaystyle\int p(\boldsymbol x_2|\boldsymbol\theta)\textcolor{crimson}{p(\boldsymbol\theta|\mathcal D^{1})}d\boldsymbol\theta}$

该时刻的后验概率 $p(\boldsymbol\theta|\mathcal D^{2})$ 将作为下一时刻贝叶斯公式中的先验概率，也就是先验概率由 $p(\boldsymbol\theta|\mathcal D^{1})$ 更新为 $p(\boldsymbol\theta|\mathcal D^{2})$

$\qquad\cdots\cdots\qquad\qquad\cdots\cdots\qquad\qquad\cdots\cdots\qquad\qquad\cdots\cdots\qquad\qquad\cdots\cdots$

$(4)$ 第 $n$ 时刻

$\qquad$ 从 $p(\boldsymbol\theta|\mathcal D^{n-1})$ 中抽取一个 $\boldsymbol\theta$ 值用于确定概率密度函数 $p(\boldsymbol x|\boldsymbol\theta)$ ，同时观测第 $n$ 个数据 $\boldsymbol x_n$ ，观测数据集更新为 $\mathcal D^{n}=\{\boldsymbol x_1,\cdots,\boldsymbol x_n\}$ ，然后计算数据 $\boldsymbol x_n$ 的似然函数 $p(\boldsymbol x_n|\boldsymbol\theta)$ ，最后使用贝叶斯公式计算后验概率：

$\qquad\qquad p(\boldsymbol\theta|\mathcal D^{n})=\dfrac{p(\boldsymbol x_n|\boldsymbol\theta)\textcolor{crimson}{p(\boldsymbol\theta|\mathcal D^{n-1})}}{\displaystyle\int p(\boldsymbol x_n|\boldsymbol\theta)\textcolor{crimson}{p(\boldsymbol\theta|\mathcal D^{n-1})}d\boldsymbol\theta}$

该时刻的后验概率 $p(\boldsymbol\theta|\mathcal D^{n})$ 将作为下一时刻贝叶斯公式中的先验概率，也就是先验概率由 $p(\boldsymbol\theta|\mathcal D^{n-1})$ 更新为 $p(\boldsymbol\theta|\mathcal D^{n})$

由于样本抽取是独立的，因此 $p(\mathcal D^{n}|\boldsymbol\theta)=p(\boldsymbol x_n|\boldsymbol\theta)p(\mathcal D^{n-1}|\boldsymbol\theta)$
　
可得到： $p(\boldsymbol\theta|\mathcal D^{n})=\dfrac{\textcolor{slateblue}{p(\mathcal D^{n}|\boldsymbol\theta)}p(\boldsymbol\theta)}{\displaystyle\int \textcolor{slateblue}{p(\mathcal D^{n}|\boldsymbol\theta)}p(\boldsymbol\theta)d\boldsymbol\theta}=\dfrac{\textcolor{slateblue}{p(\boldsymbol x_n|\boldsymbol\theta)p(\mathcal D^{n-1}|\boldsymbol\theta)}p(\boldsymbol\theta)}{\displaystyle\int \textcolor{slateblue}{p(\boldsymbol x_n|\boldsymbol\theta)p(\mathcal D^{n-1}|\boldsymbol\theta)}p(\boldsymbol\theta)d\boldsymbol\theta}$
　
又：　　 $p(\boldsymbol\theta|\mathcal D^{n-1})=\dfrac{p(\mathcal D^{n-1}|\boldsymbol\theta)p(\boldsymbol\theta)}{\displaystyle\int p(\mathcal D^{n-1}|\boldsymbol\theta)p(\boldsymbol\theta)d\boldsymbol\theta}\Longrightarrow \textcolor{royalblue}{p(\mathcal D^{n-1}|\boldsymbol\theta)p(\boldsymbol\theta)}=p(\boldsymbol\theta|\mathcal D^{n-1})\displaystyle\int p(\mathcal D^{n-1}|\boldsymbol\theta)p(\boldsymbol\theta)d\boldsymbol\theta$
　
代入 $p(\boldsymbol\theta|\mathcal D^{n})$ 中，可得到：
　
$\qquad\qquad\begin{aligned}p(\boldsymbol\theta|\mathcal D^{n})&=\dfrac{p(\boldsymbol x_n|\boldsymbol\theta)\textcolor{royalblue}{p(\mathcal D^{n-1}|\boldsymbol\theta)p(\boldsymbol\theta)}}{\displaystyle\int p(\boldsymbol x_n|\boldsymbol\theta)p(\mathcal D^{n-1}|\boldsymbol\theta)p(\boldsymbol\theta)d\boldsymbol\theta}\\&=\dfrac{p(\boldsymbol x_n|\boldsymbol\theta)p(\boldsymbol\theta|\mathcal D^{n-1})\displaystyle\int p(\mathcal D^{n-1}|\boldsymbol\theta)p(\boldsymbol\theta)d\boldsymbol\theta}{\displaystyle\int p(\boldsymbol x_n|\boldsymbol\theta)p(\mathcal D^{n-1}|\boldsymbol\theta)p(\boldsymbol\theta)d\boldsymbol\theta}\\&=\dfrac{p(\boldsymbol x_n|\boldsymbol\theta)p(\boldsymbol\theta|\mathcal D^{n-1})}{\displaystyle\int p(\boldsymbol x_n|\boldsymbol\theta)\textcolor{crimson}{\dfrac{p(\mathcal D^{n-1}|\boldsymbol\theta)p(\boldsymbol\theta)}{\displaystyle\int p(\mathcal D^{n-1}|\boldsymbol\theta)p(\boldsymbol\theta)d\boldsymbol\theta}}d\boldsymbol\theta}\\&=\dfrac{p(\boldsymbol x_n|\boldsymbol\theta)p(\boldsymbol\theta|\mathcal D^{n-1})}{\displaystyle\int p(\boldsymbol x_n|\boldsymbol\theta)\textcolor{crimson}{p(\boldsymbol\theta|\mathcal D^{n-1})}d\boldsymbol\theta}\end{aligned}$

$\qquad$ 如此反复下去，能够产生一系列的概率密度函数 $p(\boldsymbol\theta|\boldsymbol x_1),p(\boldsymbol\theta|\boldsymbol x_1,\boldsymbol x_2),\cdots,p(\boldsymbol\theta|\mathcal D^{n}),\cdots$ ，这一过程被称为“参数估计的递归的贝叶斯方法”。

$\qquad$
例3：线性回归的贝叶斯学习（《Pattern Recognition and Machine Learning》3.3.1节）

$\qquad$ 假设观测数据满足 $t_i=y(x_i,\boldsymbol w)+\varepsilon,\ \ \varepsilon\sim\mathcal N(0,\beta^{-1})$ ，其中 $\beta=\frac{1}{\sigma^2}=25$

$\qquad$ 线性回归模型 $y(x,\boldsymbol w)=w_0+w_1x,\ \ \boldsymbol w=(w_0,w_1)^T$ ，假定真实参数值为 $\boldsymbol w=(-0.3,0.5)^T$

$\qquad$ 对于某个点 $x_i$ ，关于目标值 $t_i$ 的似然函数为 $p(t_i|x_i,\boldsymbol w)=\mathcal N(t|y(x_i,\boldsymbol w),\beta^{-1})$

关于所有目标值 $\bold t$ 的似然函数为 $p(\bold t|\boldsymbol w,\bold X)=p(t_1,\cdots,t_N|\bold X,\boldsymbol w) =\displaystyle\prod_{i=1}^N p(t_i|x_i,\boldsymbol w)$

$\qquad$ 参数向量 $\boldsymbol w$ 的先验概率为 $p(\boldsymbol w)=\mathcal N(\boldsymbol w|\boldsymbol m_0,\boldsymbol S_0)$

$\qquad$ 经过计算可以推导出后验概率 $p(\boldsymbol w|\bold t)=\mathcal N(\boldsymbol w|\boldsymbol m_N,\boldsymbol S_N)$

$\qquad$ 其中， $\boldsymbol m_N=\boldsymbol S_N(\boldsymbol S_0^{-1}\boldsymbol m_0+\beta\Phi^T\bold t)$
$\qquad$ 　　　 $\boldsymbol S_N^{-1}=\boldsymbol S_0^{-1}+\beta\Phi^T\Phi$

本例可参考《线性模型参数求解的最大似然估计》或者《Pattern Recognition and Machine Learning》3.3.1节

在这里插入图片描述

第１行 —— 中图：先验概率 $p(\boldsymbol w)$ ，真实值 $\boldsymbol w=(-0.3,0.5)^T$ 位于 $‘ + ’$ 处
　　　 —— 右图：从 $p(\boldsymbol w)$ 中抽取的、若干个不同的 $\boldsymbol w$ 值所画出不同的直线杂乱无章（由于先验信息 $p(\boldsymbol w)$ 分布广泛、不确定性大）
　
第２行 —— 右图：观测到第1个数据 $x_1,t_1)$ （蓝色圆圈）
　　　 —— 左图：计算出的似然值 $p(t_1|x_1,\boldsymbol w)$ 关于 $\boldsymbol w$ 的图像
　　　 —— 中图： $p(\boldsymbol w)$ 作为先验概率，计算出的后验概率 $p(\boldsymbol w|t^{1})$ 开始出现尖峰，关于 $\boldsymbol w$ 的不确定性变小
　　　 —— 右图：从 $p(\boldsymbol w|t^{1})$ 中抽取的、若干个不同的 $\boldsymbol w$ 值所画出不同的直线基本都靠近点 $x_1,t_1)$ 穿过，不再完全杂乱无章
　
第３行 —— 右图：观测到第2个数据 $x_2,t_2)$ （蓝色圆圈）
　　　 —— 左图：计算出的似然值 $p(t_2|x_2,\boldsymbol w)$ 关于 $\boldsymbol w$ 的图像
　　　 —— 中图： $p(\boldsymbol w|t^{1})$ 作为先验概率，计算出的后验概率 $p(\boldsymbol w|t^{1},t^{2})$ 的尖峰更明显，关于 $\boldsymbol w$ 的不确定性变得更小
　　　 —— 右图：从 $p(\boldsymbol w|t^{1},t^{2})$ 中抽取的、若干个不同的 $\boldsymbol w$ 值所画出不同的直线的方向趋于一致
　
第４行 —— 右图：观测到第n个数据 $x_n,t_n)$ （蓝色圆圈）
　　　 —— 左图：计算出的似然值 $p(t_n|x_n,\boldsymbol w)$ 关于 $\boldsymbol w$ 的图像
　　　 —— 中图：后验概率 $p(\boldsymbol w|t^{1},t^{2},\cdots,t^{n})$ 的尖峰非常尖锐，基本消除了 $\boldsymbol w$ 的不确定性
　　　 —— 右图：从 $p(\boldsymbol w|t^{1},t^{2},\cdots,t^{n})$ 中抽取的、若干个不同的 $\boldsymbol w$ 值所画出不同的直线基本上一致，说明这些不同的 $\boldsymbol w$ 值已经基本相同