[ICLR2024]Effective Data Augmentation With Diffusion Models
[abstract]
数据增强是深度学习中最流行的工具之一,支持了许多最近的进展,包括分类、生成模型和表示学习。数据增强的标准方法结合了旋转和翻转等简单变换,从现有图像生成新图像。然而,这些新图像在数据中存在的关键语义轴上缺乏多样性。当前的增强不能改变高级语义属性,例如场景中存在的动物物种,以增强数据的多样性。我们通过预先训练的文本到图像扩散模型参数化图像到图像转换来解决数据增强中缺乏多样性的问题。**我们的方法使用现成的扩散模型编辑图像以改变其语义,并从一些标记的示例中推广到新的视觉概念。**我们在少量图像分类任务和真实世界的杂草识别任务上评估了我们的方法,并观察到在测试域中准确性的提高。
[introduction]
事实上,最近大型生成模型的成功引发了一个问题:我们可以用生成模型的合成图像来增强视觉识别数据集吗?回答这个问题有望通过从少量真实图像中生成大规模图像数据集来改进图像识别,而无需人工标记。
现有的方法对这种类型的图像变换的鲁棒性很好,但是识别咖啡杯的模型也应该对视觉外观的微妙细节(如杯子的品牌)具有鲁棒性。然而,基本的转换不能产生新的结构元素、纹理或透视变化。相比之下,人类在注意这些微妙的细节方面非常出色,能够从一个例子中区分出不同品牌的马克杯。我们的目标是通过使用能够改变图像内容以提高多样性的大型文本到图像扩散模型扩展数据增强来再现这种效率。
在这项工作中,我们提出了一种灵活的数据增强策略,该策略使用**文本到图像扩散模型(DA-Fusion)**生成真实图像的变化。我们的方法通过在表示新的视觉概念的文本编码器中插入和微调新的标记,使扩散模型适应新的领域。DA-Fusion以一种尊重其语义不变性的方式修改对象的外观。我们在少量图像分类任务中测试了我们的方法,包括扩散模型词汇表之外的现实世界杂草识别任务。在所有领域使用相同的超参数,我们的方法优于先前的工作。DA-Fusion将数据增强率提高了10个百分点,实验表明我们的方法对超参数赋值具有鲁棒性。DA-Fusion是开源的:https://github.com/brandontrabucco/da-fusion
[related work]
与GAN模型相比,扩散模型已被证明可以生成更高质量的样本。
我们研究了扩散模型未训练的新概念的泛化。我们通过从稳定扩散的权重中删除概念来模拟这种状态,并仅使用少数标记的示例重新调整模型与用于训练分类器的示例相同。
[background]
扩散模型概念及相关公式
p
θ
(
x
0
:
T
)
=
p
(
x
T
)
∏
t
=
1
T
p
θ
(
x
t
−
1
∣
x
t
)
p_\theta(x_0:T)=p(x_T)\prod_{t=1}^Tp_\theta(x_{t-1}|x_t)
pθ(x0:T)=p(xT)t=1∏Tpθ(xt−1∣xt)
μ θ ( x t , t ) = 1 α t ( x t − β t 1 − α ~ t ϵ θ ( x t , t ) \mu_\theta(x_t,t)=\frac{1}{\sqrt{\alpha}_t}(x_t-\frac{\beta_t}{\sqrt{1-\widetilde{\alpha}_t}}\epsilon_\theta(x_t,t) μθ(xt,t)=αt1(xt−1−α tβtϵθ(xt,t)
x t ( x 0 , ϵ ) = α ~ t x 0 + 1 − α ~ t ϵ x_t(x_0,\epsilon)=\sqrt{\widetilde{\alpha}_tx_0}+\sqrt{1-\widetilde{\alpha}_t\epsilon} xt(x0,ϵ)=α tx0+1−α tϵ
[data augmentation with diffusion models]
我们的目标是使用文本到图像扩散模型开发一种灵活的数据增强策略。在这样做的过程中,我们考虑了三个必要条件。我们的方法应该:1.像经典的数据增强一样,适用于所有图像,而不仅仅是代表扩散模型训练的概念的图像;2.最小化特定于数据集的调优,这样增强功能就可以现成地工作。3. 有效平衡真实数据和合成数据。
我们探讨了防止Stable Diffusion训练数据泄漏的两种方法。我们还考虑了一种以数据为中心的方法,该方法从模型输入中隐藏类信息。以模型为中心的方法,通过编辑模型权重以删除类知识来防止泄漏。
以模型为中心的泄漏预防 我们使用这种方法的目标是从稳定扩散的权重中删除基准测试数据集中有关概念的知识。我们通过微调Stable Diffusion来实现这一点,以消除从基准测试数据集中生成概念的能力。
以数据为中心的泄漏预防 虽然直接编辑模型以删除有关类的知识是防止可能的泄漏的强大防御,但它也代价高昂。在我们的实验中,在一个32GB的V100 GPU上,从Stable Diffusion擦除一个类需要两个小时。对于以模型为中心的防御成本太高的情况,我们可以通过从模型的输入中删除所有类名的提及来实现较弱的防御。在实践中,从包含类名的提示符切换到不包含类名的新提示符就足够了。
在合成图像上训练模型往往有过度强调不完美生成模型所导致的虚假质量和偏差的风险。常见的解决方案为真实图像和合成图像分配不同的采样概率,以管理不平衡。
[data preparation]
我们提供了美国西部半自然地区自上而下的无人机图像数据集。收集这些数据是为了更好地绘制一种有问题的入侵植物的范围,这种植物是对北美温带地区自然和农业生态系统的损害。据我们所知,在稳定扩散训练数据中不存在自上而下的叶草航拍图像。我们观察到我们的目标物种大戟属(Euphorbia esula)是第35个结果。这个数据集代表了一个独特的机会来探索稳定扩散的少量学习,改进分类将直接有利于恢复自然生态系统的努力。
2012版本的pasaclVOC和2017版本的COCO
[discussion]
我们提出了一种灵活的基于扩散模型的数据增强方法,即DA-Fusion。我们的方法采用预训练扩散模型对图像进行语义修改,无论图像内容如何,都能产生高质量的增强图像。我们的方法提高了测试域中的少量分类准确率,并且在基于Pascal和COCO的任务上提高了10个百分点。类似地,我们的方法在扩散模型词汇表之外的杂草识别数据集上产生增益。为了理解这些增益,我们研究了Stable Diffusion训练数据的潜在泄漏如何影响性能。为了防止评估过程中的泄漏,我们分别针对模型和数据提出了两种防御,每种防御都在防御强度和计算成本之间权衡的不同方面。当受到两种防御时,DA-Fusion始终提高少量射击分类的准确性,这突出了其对数据增强的效用。
在未来的工作中,有几个方向可以提高我们方法的灵活性和性能。首先,我们的方法没有明确控制扩散模型如何增强图像。用一种机制来扩展该方法,以更好地控制图像中的对象如何被修改,例如改变猫的品种,可以改善结果。最近在基于提示的图像编辑方面的工作表明,扩散模型可以在没有像素级监督的情况下进行局部编辑,并且可以最小限度地增加使用DA-Fusion所需的人力。这个扩展将让图像属性由DA-Fusion独立处理,某些属性可以比其他属性更极端地修改。其次,数据增强在决策设置中变得越来越重要。在这种情况下使用我们的方法时,保持时间一致性是一个重要的挑战。解决这一挑战可以提高复杂视觉环境中策略的少量泛化。最后,对我们的扩散模型主干进行改进,增强图像的照片真实感,可能会改善DA-Fusion。