原文:When Gaussian Process Meets Big Data: A Reviewof Scalable GPs
原文作者:Haitao Liu , Yew-Soon Ong
论文解读者:赵进
编者按
高斯过程模型因其出色的预测性能在仿真建模中得到了广泛应用,然而在当今大数据时代,其高昂的计算成本越来越成为一个突出的问题。为了应对这一挑战,研究人员提出了多种可扩展的高斯过程模型。本文详细介绍了当前主流的一些可扩展高斯过程模型,并对它们进行了对比分析。
摘要
本文专门回顾了最先进的可扩展高斯模型,包括全局近似和局部近似两大领域。在全局近似方面,本文关注稀疏近似方法,包括修改先验进行精确推理的先验近似、保留精确先验进行近似推理的后验近似,以及利用核矩阵特定结构的结构化稀疏近似。在局部近似方面,则关注专家混合模型,通过多个局部专家的模型平均来提高预测效果。最后,文章讨论了可扩展高斯模型在不同情况下的扩展性和未解决的问题,以启发未来研究的新思路。
引言
大数据带来的海量信息和不断发展的计算机硬件推动了机器学习的成功,但也给高斯过程回归(GPR)带来了挑战。作为一种著名的非参数、可解释的贝叶斯模型,高斯模型的时间复杂度为 O ( n 3 ) \mathcal{O}(n^{3}) O(n3)。为了在保持预测质量的同时提高可扩展性,人们提出了多种可扩展的高斯模型,可大致分为以下几类:
- 全局近似:通过全局提炼来近似核矩阵 K n n \boldsymbol{K}_{nn} Knn。这种提炼可以通过以下几种方式实现:
- 使用 m ( m ≪ n ) m(m≪n) m(m≪n) 个点的训练数据子集,得到一个较小的核矩阵 K m m \boldsymbol{K}_{mm} Kmm
- 移除 K n n \boldsymbol{K}_{nn} Knn 中不相关的元素,得到一个稀疏核矩阵 K ~ n n \tilde{\boldsymbol{K}}_{nn} K~nn
- Nyström 近似,选择 m m m 个诱导点来近似 K n n \boldsymbol{K}_{nn} Knn,即 K n n ≈ K n m K m m − 1 K m n \boldsymbol{K}{nn} \approx \boldsymbol{K}{nm} \boldsymbol{K}{mm}^{-1} \boldsymbol{K}_{mn} Knn≈KnmKmm−1Kmn
- 局部近似:遵循分而治之的思想,关注训练数据的局部子集。局部近似每次只需处理包含 m 0 ( m 0 ≪ n ) m_0(m_0≪n) m0(m0≪n) 个数据点的局部专家。此外,为了生成具有有效不确定性的平滑预测,采用了专家混合或产品的模型平均法。
全局近似
全局近似主要通过以下3种方式近似核矩阵 K n n \boldsymbol{K}_{nn} Knn:
数据子集 (Subset of Data)
SoD是通过使用训练数据 D D D的一个子集 D s o d D_{sod} Dsod来近似完整 GP 的最简单策略。因此,SoD在时间复杂度为 O ( m 3 ) \mathcal{O}(m^3) O(m3)的情况下保留了标准高斯推理,因为它操作的核矩阵 K m m \boldsymbol{K}_{mm} Kmm仅包含 m m m个 ( m ≪ n m≪n m≪n) 数据点。尽管SoD在数据冗余的情况下能产生合理的预测均值,但由于子集的限制,它在产生预测方差时表现不佳,容易导致过拟合。
对于 D s o d D_{sod} Dsod的选择,有几种方法:
- 可以随机从 D D D中选择 m m m个点;
- 使用聚类技术(如 k k k-means 和 KD 树)将数据分成 m m m个子集,并选择每个子集的中心点;
- 采用主动学习标准(如微分熵、信息增益和匹配追踪)来依次选择数据点,但这会带来更高的计算成本。
稀疏核(Sparse Kernels)
稀疏核通过特别设计的紧支撑核直接实现核矩阵 K n n \boldsymbol{K}_{nn} Knn的稀疏表示 K ~ n n \tilde{\boldsymbol{K}}_{nn} K~nn,即当 ∣ x i − x j ∣ \left|\boldsymbol{x}_i - \boldsymbol{x}j\right| ∣xi−xj∣超过某个阈值时,令 k ( x i , x j ) = 0 k(\boldsymbol{x}_i, \boldsymbol{x}_j) = 0 k(xi,xj)=0。只使用 K ~ n n \tilde{\boldsymbol{K}}_{nn}