【数理基础】Gaussian Process(GP)高斯过程与Gaussian Process Regression(GPR)高斯过程回归

yaoyao255

已于 2023-09-20 15:55:06 修改

阅读量295

点赞数 2

分类专栏：数理基础文章标签：机器学习人工智能数学建模算法

于 2023-09-12 23:01:56 首次发布

本文链接：https://blog.csdn.net/weixin_60734652/article/details/132839016

版权

数理基础专栏收录该内容

3 篇文章 0 订阅

订阅专栏

0 参考资料

1 高斯过程定义

2 高斯过程回归（Gaussian Process Regression）

0 参考资料

[1] 文字资料：Gaussian Processes for Machine Learning

[2] 视频讲解：机器学习-白板推导系列(二十)-高斯过程GP(Gaussian Process)（目测视频中的内容也是借鉴的上面的文字资料，不过通过讲解可能更好懂一些，视频中完整讲述了高斯过程回归的weight space view和function space view，两者完全等价，我在博客中只讲解后者，因为后者更直接明了）

1 高斯过程定义

假设 $T$ 是一个连续域，对于 $T$ 中的每一个点 $t_i$ ，都有一个其对应的变量 $\xi _i$ 。

如果我们任意选取一组点 $t_{1}, t_{2},...,t_{n}\in T$ ，都有对应变量 $\{\xi _{t_{1}}, \xi _{t_{2}},...,\xi _{t_{n}}\}$ 的联合分布服从多维高斯分布 $N(\mu_{t},\Sigma_{t})$ （注意当只选取一个点时则服从一维高斯分布），那么就将 $\{\xi _{t}\}_{t\in T}$ 称为一个高斯过程。

由于 $T$ 是连续域，可以随机去任意多点，因此可以看做是在这个连续域上的无限维高斯分布。

在实际采样时，我们无法采样无限多的点，因此假设我们每次采样的位置是 $t_{1}, t_{2},...,t_{n}\in T$ ，注意每个点对应的是一个随机变量而不是一个具体的值，因此如果我们要对一个GP在这一组点上进行采样，每次随机变量对应的值不一定相同，即每次都是从该随机变量服从的高斯分布中采样一个值。

可以认为高斯过程由两个函数确定，即 $GP(m(t), K(t,s))$ ，其中 $m(t)=E[\xi _t]$ 是均值函数， $K(t,s)=E[(\xi _t-m(\xi _t))(\xi _s-m(\xi _s))]$ 是协方差函数。

2 高斯过程回归（Gaussian Process Regression）

高斯过程可以被看作是对函数的分布的定义，将函数 $f(x)$ 看做随机变量，则有 $f(x)\sim GP(m(x),K(x,x'))$ ，其中输入 $x\in \mathbb{R}^{p}$ 。

对应有 $m(x)=E[f(x)]$ 和 $K(x,x')=E[(f(x)-m(x))(f(x')-m(x'))]$ 。

考虑回归问题：

现有完整数据 $\{(x_i,y_i)\}_{i=1}^N$ ，令 $X=(x_1,x_2,...,x_N)^T_{N\times p},Y=(y_1,y_2,...,y_N)^T_{N\times 1}$

$f(X)=(f(x_1),f(x_2),...,f(x_N))^T_{N\times 1}\sim N(\mu(X),K(X,X))$

则有 $Y=f(X)+\varepsilon \sim N(\mu(X),K(X,X)+\sigma^2I )$ ，其中 $\varepsilon\sim N(0,\sigma ^2)$ 是随机噪声。

新数据（用于预测） $X^*=(x_1^*,x_2^*,...,x_M^*)^T_{M\times p}$

根据 $Y^*=f(X^*)+\varepsilon$ ，我们只要求出 $f(X^*)$ 即可。

先写出现有数据（完整数据，用于训练）和新数据（用于预测）的联合概率分布：

$\begin{bmatrix}Y \\ f(X^*) \end{bmatrix}\sim N(\begin{bmatrix}\mu(X) \\ \mu(X^*) \end{bmatrix},\begin{bmatrix} K(X,X)+\sigma ^2I & K(X,X^*)\\K(X^*,X) &K(X^*,X^*) \end{bmatrix})$

我们要求的是 $P(f(X^*)|Y,X,X^*)=N(\mu^*_f,\Sigma ^*_f)$

有如下公式：

$x\sim N(\mu,\Sigma),x=\begin{pmatrix} x_a\\x_b \end{pmatrix},\mu=\begin{pmatrix} \mu_a\\\mu_b \end{pmatrix}, \Sigma=\begin{pmatrix} \Sigma_{aa} & \Sigma_{ab}\\\Sigma_{ba} & \Sigma_{bb} \end{pmatrix}$

$x_b|x_a\sim N(\mu_{b|a},\Sigma_{b|a})$

$\mu_{b|a}=\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a)+\mu_b$

$\Sigma_{b|a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}$

代入公式得

$\mu^*_f=K(X^*,X)(K(X,X)+\sigma ^2I)^{-1}(Y-\mu(X))+\mu(X^*)$

$\Sigma ^*_f=K(X^*,X^*)-K(X^*,X)(K(X,X)+\sigma ^2I)^{-1}K(X,X^*)$

这是 $f(X^*)$ 的后验分布，也即无噪声情况下 $Y^*$ 的后验分布。

当有噪声 $\varepsilon\sim N(0,\sigma ^2)$ 时， $P(Y^*|Y,X,X^*)=N(\mu^*_{Y^*},\Sigma ^*_{Y^*})$

$\mu^*_{Y^*}=\mu^*_f,\Sigma ^*_{Y^*}=\Sigma^*_f+\sigma ^2I$

yaoyao255

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【数理基础】Gaussian Process(GP)高斯过程与Gaussian Process Regression(GPR)高斯过程回归

假设是一个连续域，对于中的每一个点，都有一个其对应的变量。如果我们任意选取一组点，都有对应变量的联合分布服从多维高斯分布（注意当只选取一个点时则服从一维高斯分布），那么就将称为一个高斯过程。由于是连续域，可以随机去任意多点，因此可以看做是在这个连续域上的无限维高斯分布。在实际采样时，我们无法采样无限多的点，因此假设我们每次采样的位置是注意每个点对应的是一个随机变量而不是一个具体的值。
复制链接

扫一扫