深度高斯过程综述

风尘23187

已于 2022-06-08 20:29:32 修改

阅读量4k

点赞数 4

分类专栏：贝叶斯论文文章标签：机器学习人工智能

于 2022-06-08 16:57:36 首次发布

本文链接：https://blog.csdn.net/ygf666/article/details/125182917

版权

0摘要

高斯过程是贝叶斯学习的主要方法之一。尽管该方法已经成功地应用于许多问题，但它有一些基本的局限性。文献中的多种方法已经解决了这些限制。但是，到目前为止，还没有对这些主题进行全面的调查。大多数现有调查只关注高斯过程的一种特定变体及其衍生物。本调查详细介绍了使用高斯过程的核心动机、其数学公式、局限性和多年来为解决上述局限性而出现的研究主题。此外，一个特定的研究领域是深度高斯过程 (DGP)，它在过去十年中得到了显着改进。他们的调查概述了推动这一研究领域前沿的重要出版物。最后，对未解决的问题和未来工作的研究方向进行了简要讨论。

1介绍

近年来，机器学习领域取得了许多进展。大多数这些进步可以归因于反向传播、大型数据集和计算资源的改进。然而，目前大多数流行的机器学习方法，主要是深度学习方法，都是基于频率论方法，这需要通过研究数据集中特征和预测之间的相关性来做出任何预测决策。这种方法的问题在于，它很容易对数据集过拟合，并有学习数据集中不理想偏差的风险。

此外，当前的方法使得将任何先验领域知识引入预测模型变得困难且不直观。一些现实世界的问题有领域专家；结合他们的知识可以产生更好的模型。然而，大多数深度学习方法不适应这种结合，需要开发特定于应用程序的方法来解决这样的问题。

预测不确定性是一个重要的指标，需要通过可靠的模型进行估计。大多数数据源都包含不可忽略的噪声，这些噪声可能会阻碍预测模型的性能。测试数据样本与训练数据集分布不太相似的情况也很常见。在这种情况下，必须了解模型的预测不确定性。如果该模型用于关键任务任务而不考虑其预测不确定性，则可能导致灾难性结果。

传统深度学习方法的另一个主要缺点是模型比较。深度学习方法是参数化的，需要模型架构的明确定义。此外，模型架构是特定于应用程序的。通常需要将多个模型架构相互比较，以确定哪个是任务的最佳模型。但是，在参数计数和比较准确性方面考虑模型大小是非常重要的。

贝叶斯方法以不同程度的易用性和效率解决了上述限制。我们可以将领域知识与先验分布相结合，预测不确定性可以用预测方差来估计，模型可以用贝叶斯因子适当地相互比较。

除了上述优点之外，贝叶斯方法的另一个有趣特征是它们有助于对任何系统或过程进行因果建模。事实上，大多数分类或回归问题都需要一系列子决策，每个子决策都会导致最终预测。然而，传统的深度学习方法并不是特别适合指定这种因果模型。贝叶斯框架以及 do-calculus [Pearl, 2000, Pearl and Mackenzie, 2018] 可用于在模型中指定此类结构。

贝叶斯方法的优点提出了为什么它们还没有广泛适应的问题。贝叶斯方法通常会产生大量的计算费用或完全难以解决的问题，这使得它们无法解决几个问题。尽管如此，这些方法具有悠久的历史，并已被用于解决许多具有实质性分支的问题 [McGrayne, 2011]。贝叶斯框架一次又一次地证明自己值得进一步研究。

本文考虑了一种特殊类型的贝叶斯方法，即高斯过程 [Rasmussen and Williams, 2006]。该方法源于随机过程，一个致力于用概率理论建模随机过程的研究领域 [Klebaner, 2012, Rosenthal, 2006]。大多数感兴趣的问题通常不是确定性过程，或者即使是，也可能无法访问对其建模所需的所有信息。随机过程在数学上适应了这种不确定性，而高斯过程是随机过程的一种特殊变体。我从详细介绍高斯过程、它们的优点和缺点开始我的阐述。然而，本次调查的主要焦点是深度高斯过程 (DGP)。我将描述一些对构建 DGP 至关重要的高斯过程的突出变体，并解释关键的 DGP 方法。

3 高斯过程

我详细介绍了贝叶斯方法的关键优势以及为什么研究人员特别对高斯过程感兴趣。本节进一步阐述了 GP。我给出了全科医生的直觉；他们的数学公式 [Rasmussen and Williams, 2006, Murphy, 2012]，以及对其公式中术语的直观解释。此外，我将解释内核函数并列出 GP 的一些限制。
在这里插入图片描述

3.2 限制

尽管 GP 有几个优点，但它们也有一些关键限制，阻碍了它们在大多数机器学习问题中的使用。具体来说，主要存在三个问题：

计算成本
存储成本
分层特征提取

GP 的计算成本可能相当可观，需要对核矩阵求逆以获得 GP 的预测分布。内核矩阵的大小为 $n \times n$ 其中 $n$ 是训练数据集中的数据点数。对这样的矩阵求逆需要 $O(n^3)$ 的计算时间。此外，一旦内核矩阵逆可用，就需要 $O (n)$ 和 $O(n^2)$ 时间来确定新数据点的预测分布的均值和方差。
在这里插入图片描述
此外，由于 GP 需要整个训练数据集的存储，因此存储成本为 $O(n^2)$ 。根据数据集的大小，存储成本大大限制了该方法的可扩展性。此外，如果在训练数据集大小不断增加的环境中使用 GP，则计算和存储成本可能会压倒整个过程，从而使 GP 的好处变得过于昂贵。因此，GPs 通常只适用于大约 1000 - 3000 个数据点的数据集。

GP 的另一个主要缺点是缺乏能够处理结构化数据的内核函数，其中需要考虑分层特征提取来正确确定一对数据点的相似性。这样的问题经常出现在图像等数据中，但在更简单的矢量数据集中也很普遍。传统的核函数无法处理这种相关性，因此需要像深度学习模型中使用的那样进行深度特征提取。然而，这种特征提取仍然需要限制在贝叶斯框架中，以保留 GP 的优势。

稀疏高斯过程解决了计算和存储成本。深度高斯过程解决了特征提取问题。

我将在以下部分解释过去二十年来开发的稀疏和深度 GP 的一些突出方法。图：2 显示了将限制与解决这些限制的 GP 变体相关联的流程图。
在这里插入图片描述

4 稀疏高斯过程

鉴于阻碍 GP 广泛使用的计算和存储要求，大量论文试图解决该问题，并统称为稀疏高斯过程 (SGP)，图 3 描述了本节中介绍的主要方法。
在这里插入图片描述
该术语源于大多数这些方法解决该问题的方式。因为主要问题是协方差矩阵的求逆，所以大多数方法都试图引入稀疏性并减小需要求逆的矩阵大小，同时保留原始矩阵的性能。

本节重点介绍一些众所周知的方法，这些方法对于开发某些深度高斯过程方法至关重要，这些方法将在下一节中详细介绍。所有 SGP 的完整概述超出了本次调查的范围；读者可参考 [Liu et al., 2020] 进行全面总结。 [Williams and Seeger, 2001] 的 Nystr om 近似是一种众所周知的降低 GP 中协方差矩阵求逆成本的方法。

Nystr om 近似允许生成任何核矩阵的低秩近似。该方法通过从训练集中选择 $m < < n$ 的 $m$ 个数据点应用于 GP。然后计算内核矩阵的低秩近似 $\hat K$ ，如下所示