【类增量学习】CVPR 2021：Class-Incremental Learning with Generative Classifiers

BIT可达鸭

已于 2022-01-18 17:29:23 修改

阅读量1.7k

点赞数

分类专栏：增量学习文章标签：计算机视觉深度学习人工智能增量学习朴素贝叶斯算法

于 2021-11-22 16:34:26 首次发布

本文链接：https://blog.csdn.net/weixin_44936889/article/details/121465030

版权

增量学习专栏收录该内容

4 篇文章 12 订阅

订阅专栏

在这里插入图片描述

论文地址：

https://arxiv.org/abs/2104.10093

代码地址：

https://github.com/GMvandeVen/class-incremental-learning

论文摘要：

增量训练深度神经网络来识别新的类是一个具有挑战性的问题。大多数现有的类增量学习方法存储数据或使用生成式重放，这两者都有缺点，而“无重放”的替代方法，如参数正正化或偏差校正方法，并不能一致地达到高性能。

在此，我们提出了一种新的类增量学习策略：生成式分类。

我们的建议不是直接学习条件分布 $p(y|\boldsymbol{x})$ ，而是学习联合分布 $p(\boldsymbol{x},y)$ ，分解为 $p(\boldsymbol{x} \mid y) p(y)$ ，并使用贝叶斯规则进行分类。

作为原理证明，这里我们通过训练每个要学习的类的变分自动编码器，并使用重要性抽样来估计概率 $p(\boldsymbol{x}|y)$ 来实现该策略。

这种简单的方法在一系列不同的持续学习基准测试上表现得非常好，优于生成式重放和其他不存储数据的现有基线。

论文介绍：

深度神经网络擅长于监督学习任务，但只有当所有要学习的类同时可用时。增量训练一个深度神经网络来区分逐渐增长的类已经被证明是非常具有挑战性的。

成功的类增量学习策略通常要么依赖于存储过去数据的一个子集或通过重放来表示过去的数据，这两者都有重要的缺点。在实践中，存储数据并不总是可能的（例如，出于安全/隐私考虑或存储容量有限），而重放的计算成本很高，因为它涉及到对过去的数据进行持续的再训练。

这些缺点激发了人们对“无重放”持续学习的兴趣，在这种学习中，存储或使用重放是不允许的。在过去的几年里，已经提出了一些方法，可以在不重放或存储数据的情况下进行分类增量学习。

然而，这些方法依赖于具有明确任务边界的协议，并且它们的性能严重依赖于适当的预先训练的特征提取器的可用性。

本文提出了生成分类作为一种很有前途的类增量学习新策略。

具体来说，我们建议训练神经网络直接学习条件分布 $p(y|\boldsymbol{x})$ ，而是训练它们学习联合分布 $p(\boldsymbol{x},y)$ ，分解为 $p(\boldsymbol{x} \mid y) p(y)$ ，然后使用贝叶斯规则进行分类。

这种策略的一个关键好处是，它将一个具有挑战性的类增量学习问题重新定义为一个更容易解决的任务增量学习问题。

为了证明生成分类在类增量学习中的潜力，作为一种原理证明，我们通过训练每个类要学习的变分自编码器模型和在推理过程中使用重要性抽样来估计类条件概率来实现这一策略。

我们发现，如此简单的生成式分类器实现在各种类增量学习问题上表现得非常好，优于生成式重放和现有的无重放方法。

此外，这种方法不使用重放，不存储数据，它可以应用于任意的类增量数据流（即不需要任务边界），也不依赖于预先训练过的网络，尽管如果可用，这些网络可以有效地使用。

问题定义：

在连续或增量学习中，算法不能同时访问所有数据，但它可以序列地访问数据。

有各种不同的方法可以设置一个类增量学习问题。这使得研究之间的直接比较具有挑战性，即使它们使用相同的数据集。因此，我们首先讨论一些不同研究之间不同的重要假设。

给定数据集 $\mathcal{D}=\{x_i,y_i\}^n_{i=1}$ ，类增量学习的目标是学习到一个分类规则，用于输入 $x\in\mathcal{X}$ 映射到预测标签 $y\in\mathcal{Y}$ 。

但是，不像经典的机器学习，增量学习算法必须在每次没有权限访问全部数据集的情况下学习到该映射。

在这里插入图片描述

Task-based class-incremental learning：

一种常用的类增量学习协议是将数据集分割为不同的“任务”，其中每个任务包含一个不同的类子集。然后依次给予该算法对每个任务的数据的访问权。

重要的是，在从一个任务转换到下一个任务后，来自前一个任务的数据将不再可用。在每个任务中，该任务的训练数据可以同时提供给算法，也可以根据不受算法控制的固定流来呈现。

Task-free class-incremental learning：

有人认为，基于任务的协议并不能代表现实世界的问题，我们应该将其重点转向“无任务”的持续学习。在一个无任务协议中，该算法具有任意的数据流，而对该数据流的结构没有任何先验知识。许多现有的类增量学习方法都不能处理这种设置，因为它们依赖于“任务边界”的存在。

一般来说，无任务类增量学习的基准测试需要包括一个关于应该如何生成数据流的协议（即，它们应该指定何时呈现来自每个类的样本）。

一个开放的、在很大程度上未被解决的研究问题与开发一种设计此类数据流的原则方法有关。在本文中，我们回避了这个问题，因为在这里考虑的是生成分类器的特殊实现，即每个类都有单独的生成模型，因此数据流的实际类增量序列并不重要。

无任务的持续学习也被称为“流媒体”或“在线”的持续学习。在这种情况下，有时附加的约束是每个训练样本应该只显示一次，并且小批量大小应该是一个。然而，值得指出的是，这些约束与算法的样本效率及其对噪声更新的鲁棒性有关，尽管它们是值得研究的主题，但这些都独立于基于任务和无任务的类增量学习之间的区别。对于本文中报告的一个基准，我们遵循流媒体学习的更严格的定义。

Data storage：

许多类增量学习方法所做的一个重要假设是，在内存缓冲区中存储有限数量的过去样本是可以接受的。这个内存缓冲区的大小通常是方法性能的最重要决定因素之一。在实践中，存储数据并不总是可能的（例如，安全或隐私问题），在本研究中，我们不允许数据存储，这种设置被称为无记忆类增量学习。

Pre-training：

在类增量学习文献中通常做的另一个假设，特别是不允许存储数据的研究，是有适当的预训练网络或特征提取器，或者有一个扩展的、非增量初始化阶段可用于预训练。虽然关于数据存储假设的重要性似乎得到广泛承认，但这种关于训练前的假设很少得到关注。在这里，我们通过考虑有预训练网络（CIFAR-100和CORe50）的基准和没有预训练（MNIST和CIFAR-10）的基准来研究预训练的重要性。

基本实现：

General framework & intuition：

在深度学习中，典型的分类方法是训练神经网络直接学习我们感兴趣的条件分布 $p(y|\mathbf{x})$ ，例如使用交叉熵损失使用softmax输出层训练前馈分类器。当所有的类都同时可用时，这种方法确实有用。

然而，在增量设置中，这种直接方法就没法用了。

以标准方式训练的softmax分类器严重过度适合最近看到的类，这种现象被称为灾难性遗忘。这种灾难性遗忘的一个原因是，基于最近看到的数据， $p(y|\boldsymbol{x})$ 的经验版本——softmax分类器旨在学习它——确实严重偏向于最新的类。到目前为止，持续学习领域的主要方法是试图寻找缓解灾难性遗忘的方法和技巧。

结合传统的训练分类器的深度学习方法，我们提出用生成分类器来处理类增量学习。我们不建议训练深度神经网络来直接学习条件分布 $p (y ∣ x)$ ，而是训练它们来学习联合分布 $p(\boldsymbol{x},y)$ ——分解为 $p(\boldsymbol{x}|y)p(y)$ ，并使用贝叶斯规则进行分类。

这一策略的关键好处是，在类增量学习设置中，基于最近看到的数据， $p(\boldsymbol{x}|y)$ 的经验版本不应该有任何特定的偏差。只有 $p (y)$ 的经验版本是有偏差的，但是在没有灾难性遗忘的情况下学习这个分布通常是简单的（例如，观察到每个标签的次数可以被计算）或者说是不必要的（例如，如果可以假设所有标签都有相同的先验概率）。

这样我们就将类增量问题转换成了任务增量问题。

另一种描述所提出的生成式分类器策略的好处的方法是，它将一个具有挑战性的类增量学习问题转化为一个更简单的任务增量学习问题。这是这样的，因为学习 $p(\boldsymbol{x}|y)$ 可以被解释为一个任务增量问题，即每个“任务”包括学习一个特定标签 $y$ 的类条件生成模型。

任务增量学习的一个重要优点是，可以训练具有特定任务组件的网络，甚至可以使用完全独立的网络来学习每个任务。

最后的见解用于我们的生成分类器的原理验证实现，每个类都有一个单独的生成模型。但是请注意，应该可以使用其他任务增量学习技术来实现这些模型之间的参数共享。

Implementation: VAEs & importance sampling：

在本文中，为了证明所提出的生成分类策略的潜力，我们通过训练每个类需要学习的变分自动编码器（VAE）模型，并使用重要性抽样，以估计概率 $p(\boldsymbol{x}|y)$ 来实现生成分类器。对于 $p (y)$ ，我们在所有可能的类上使用均匀分布，因为所有的基准测试中每个类的样本数量近似相等。

一般来说， $p (y)$ 也可以从数据中学习到，例如，通过计算在训练数据中观察到每个类的次数。

Variational autoencoder：

为了学习分布 $p(\mathbf{x}|y)$ ，我们为每个要学习的类训练一个VAE模型。

对于 MNIST 和 CIFAR-10，每个类都学习一个完全独立的VAE模型，而在CIFAR-100和CORe50的实验中，所有模型之间共享较低的、预训练的层。

VAE模型由编码器 $q_{\phi}$ ，解码器 $p_{\theta}$ 和先验分布 $p_{prior}(z)$ 组成.

编码器将输入 $x$ 映射到潜在空间的后验分布 $q_{\phi}(z|x)$ ，解码器 $p_{\theta}$ 则将潜在变量 $z$ 映射回输入空间的分布 $p_{\theta}(x|z)$ 。对于本文中使用的VAE模型，这些分布的计算方法为：

$q_{\phi}(z|x)=\mathcal{N}(z|\mu_{\phi}^{(x)},\sigma_{\phi}^{(x)^{2}}I)$

$p_{\theta}(x|z)=\mathcal{N}(x|\mu_{\theta}^{(z)},I)$

$p_{prior}(z)=\mathcal{N}(z|0,I)$

其中 $\mu_{\phi}^{(x)}$ 和 $\sigma_{\phi}^{(x)}$ 是 $x$ 输入时编码器网络的输出， $\mu_{\theta}^{(z)}$ 是 $z$ 输入时解码器网络的输出。对于编码器网络和解码器网络，我们都使用了深度神经网络。

VAE模型通过优化似然 $p_{\boldsymbol{\theta}}(\boldsymbol{x})=\int p_{\boldsymbol{\theta}}(\boldsymbol{x}, \boldsymbol{z}) d \boldsymbol{z}=\int p_{\boldsymbol{\theta}}(\boldsymbol{x} \mid \boldsymbol{z}) p_{\text {prior }}(\boldsymbol{z}) d \boldsymbol{z}$ 的变分下界来进行训练。其下界（也就是ELBO）为：

$\begin{array}{l} \mathcal{L}_{\mathrm{ELBO}}(\boldsymbol{\theta}, \boldsymbol{\phi} ; \boldsymbol{x})=E_{q_{\phi}(\boldsymbol{z} \mid \boldsymbol{x})}\left[\log \frac{p_{\boldsymbol{\theta}}(\boldsymbol{x}, \boldsymbol{z})}{q_{\boldsymbol{\phi}}(\boldsymbol{z} \mid \boldsymbol{x})}\right] \\ \quad=E_{q_{\boldsymbol{\phi}}(\boldsymbol{z} \mid \boldsymbol{x})}\left[\log p_{\boldsymbol{\theta}}(\boldsymbol{x} \mid \boldsymbol{z})\right]-D_{K L}\left(q_{\boldsymbol{\phi}}(\boldsymbol{z} \mid \boldsymbol{x}) \| p_{\text {prior }}(\boldsymbol{z})\right) \end{array}$

Importance sampling：

为了估计可能性 $p(\boldsymbol{x}|y)$ ，我们使用了重要性抽样。这意味着，在 $y$ 类的VAE模型下，测试样本 $x$ 的可能性可以估计为：

$p(\boldsymbol{x} \mid y)=\frac{1}{S} \sum_{s=1}^{S} \frac{p_{\boldsymbol{\theta}_{y}}\left(\boldsymbol{x} \mid \boldsymbol{z}^{(s)}\right) p_{\text {prior }}\left(\boldsymbol{z}^{(s)}\right)}{q_{\boldsymbol{\phi}_{y}}\left(\boldsymbol{z}^{(s)} \mid \boldsymbol{x}\right)}$

其中 $\boldsymbol\theta_{y}$ 和 $\boldsymbol\phi_{y}$ 为 $y$ 类VAE模型的参数， $S$ 为重要样本数， $\boldsymbol{z}^{(S)}$ 为从 $q_{\boldsymbol{\phi}_{y}}(\boldsymbol{z}|\boldsymbol{x})$ 中抽取的第 $S$ 重要样本。我们对每个似然估计使用 $S = 10, 000$ 个重要样本。

根据贝叶斯规则： $p(y|\boldsymbol{x})∝p(\boldsymbol{x}|y)p(y)$ ，然后使用以下方法进行分类：

$\hat{y}^{(\boldsymbol{x})} = \underset{y \in \mathcal{Y}}{\operatorname{argmax}} p(\boldsymbol{x} \mid y) p(y) = \underset{y \in \mathcal{Y}}{\operatorname{argmax}} p(\boldsymbol{x} \mid y)$

其中 $\hat{y}^{(\boldsymbol{x})}$ 是生成分类器对测试样本 $\boldsymbol{x}$ 预测的类标签。

迄今为止所描述的生成分类器方法并不依赖于预先训练过的网络的可用性，因为可以从头开始训练完整的生成模型。

然而，如果有预先训练过的模型可用，就可以用各种方式来使用它们。例如，假设预先训练过的卷积层是可用的。一种选择是使用这些方法来初始化VAE模型的编码器网络的卷积层，然后以标准的方式继续进行训练。

本文所采用的另一种方法是使用预先训练好的卷积层作为固定的特征提取器，然后根据提取的特征而不是原始输入来训练VAE模型。

第二种方法的一个优点是，这让人联想到最近在特征空间中执行生成式回放的研究，即它似乎更容易为这些提取的特征学习良好的生成模型，这可能是因为它们不如原始输入那么复杂。

实验结果：

在这里插入图片描述

BIT可达鸭

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
【类增量学习】CVPR 2021：Class-Incremental Learning with Generative Classifiers

【类增量学习】CVPR 2021：Class-Incremental Learning with Generative Classifiers论文地址：代码地址：论文摘要：论文介绍：问题定义：Task-based class-incremental learning：Task-free class-incremental learning：Data storage：Pre-training：论文地址：https://arxiv.org/abs/2104.10093代码地址：https://githu
复制链接

扫一扫