【Diffusion Models】[ICLR2024]Effective Data Augmentation With Diffusion Models

[ICLR2024]Effective Data Augmentation With Diffusion Models
[abstract]

数据增强是深度学习中最流行的工具之一,支持了许多最近的进展,包括分类、生成模型和表示学习。数据增强的标准方法结合了旋转和翻转等简单变换,从现有图像生成新图像。然而,这些新图像在数据中存在的关键语义轴上缺乏多样性。当前的增强不能改变高级语义属性,例如场景中存在的动物物种,以增强数据的多样性。我们通过预先训练的文本到图像扩散模型参数化图像到图像转换来解决数据增强中缺乏多样性的问题。**我们的方法使用现成的扩散模型编辑图像以改变其语义,并从一些标记的示例中推广到新的视觉概念。**我们在少量图像分类任务和真实世界的杂草识别任务上评估了我们的方法,并观察到在测试域中准确性的提高。

[introduction]

事实上,最近大型生成模型的成功引发了一个问题:我们可以用生成模型的合成图像来增强视觉识别数据集吗?回答这个问题有望通过从少量真实图像中生成大规模图像数据集来改进图像识别,而无需人工标记。

现有的方法对这种类型的图像变换的鲁棒性很好,但是识别咖啡杯的模型也应该对视觉外观的微妙细节(如杯子的品牌)具有鲁棒性。然而,基本的转换不能产生新的结构元素、纹理或透视变化。相比之下,人类在注意这些微妙的细节方面非常出色,能够从一个例子中区分出不同品牌的马克杯。我们的目标是通过使用能够改变图像内容以提高多样性的大型文本到图像扩散模型扩展数据增强来再现这种效率。

在这项工作中,我们提出了一种灵活的数据增强策略,该策略使用**文本到图像扩散模型(DA-Fusion)**生成真实图像的变化。我们的方法通过在表示新的视觉概念的文本编码器中插入和微调新的标记,使扩散模型适应新的领域。DA-Fusion以一种尊重其语义不变性的方式修改对象的外观。我们在少量图像分类任务中测试了我们的方法,包括扩散模型词汇表之外的现实世界杂草识别任务。在所有领域使用相同的超参数,我们的方法优于先前的工作。DA-Fusion将数据增强率提高了10个百分点,实验表明我们的方法对超参数赋值具有鲁棒性。DA-Fusion是开源的:https://github.com/brandontrabucco/da-fusion

[related work]

与GAN模型相比,扩散模型已被证明可以生成更高质量的样本。

我们研究了扩散模型未训练的新概念的泛化。我们通过从稳定扩散的权重中删除概念来模拟这种状态,并仅使用少数标记的示例重新调整模型与用于训练分类器的示例相同。

[background]

扩散模型概念及相关公式
p θ ( x 0 : T ) = p ( x T ) ∏ t = 1 T p θ ( x t − 1 ∣ x t ) p_\theta(x_0:T)=p(x_T)\prod_{t=1}^Tp_\theta(x_{t-1}|x_t) pθ(x0:T)=p(xT)t=1Tpθ(xt1xt)

μ θ ( x t , t ) = 1 α t ( x t − β t 1 − α ~ t ϵ θ ( x t , t ) \mu_\theta(x_t,t)=\frac{1}{\sqrt{\alpha}_t}(x_t-\frac{\beta_t}{\sqrt{1-\widetilde{\alpha}_t}}\epsilon_\theta(x_t,t) μθ(xt,t)=α t1(xt1α t βtϵθ(xt,t)

x t ( x 0 , ϵ ) = α ~ t x 0 + 1 − α ~ t ϵ x_t(x_0,\epsilon)=\sqrt{\widetilde{\alpha}_tx_0}+\sqrt{1-\widetilde{\alpha}_t\epsilon} xt(x0,ϵ)=α tx0 +1α tϵ

[data augmentation with diffusion models]

我们的目标是使用文本到图像扩散模型开发一种灵活的数据增强策略。在这样做的过程中,我们考虑了三个必要条件。我们的方法应该:1.像经典的数据增强一样,适用于所有图像,而不仅仅是代表扩散模型训练的概念的图像;2.最小化特定于数据集的调优,这样增强功能就可以现成地工作。3. 有效平衡真实数据和合成数据。

我们探讨了防止Stable Diffusion训练数据泄漏的两种方法。我们还考虑了一种以数据为中心的方法,该方法从模型输入中隐藏类信息。以模型为中心的方法,通过编辑模型权重以删除类知识来防止泄漏。

以模型为中心的泄漏预防 我们使用这种方法的目标是从稳定扩散的权重中删除基准测试数据集中有关概念的知识。我们通过微调Stable Diffusion来实现这一点,以消除从基准测试数据集中生成概念的能力。

以数据为中心的泄漏预防 虽然直接编辑模型以删除有关类的知识是防止可能的泄漏的强大防御,但它也代价高昂。在我们的实验中,在一个32GB的V100 GPU上,从Stable Diffusion擦除一个类需要两个小时。对于以模型为中心的防御成本太高的情况,我们可以通过从模型的输入中删除所有类名的提及来实现较弱的防御。在实践中,从包含类名的提示符切换到不包含类名的新提示符就足够了。

在这里插入图片描述

在合成图像上训练模型往往有过度强调不完美生成模型所导致的虚假质量和偏差的风险。常见的解决方案为真实图像和合成图像分配不同的采样概率,以管理不平衡。

[data preparation]

我们提供了美国西部半自然地区自上而下的无人机图像数据集。收集这些数据是为了更好地绘制一种有问题的入侵植物的范围,这种植物是对北美温带地区自然和农业生态系统的损害。据我们所知,在稳定扩散训练数据中不存在自上而下的叶草航拍图像。我们观察到我们的目标物种大戟属(Euphorbia esula)是第35个结果。这个数据集代表了一个独特的机会来探索稳定扩散的少量学习,改进分类将直接有利于恢复自然生态系统的努力。

2012版本的pasaclVOC和2017版本的COCO

[discussion]

我们提出了一种灵活的基于扩散模型的数据增强方法,即DA-Fusion。我们的方法采用预训练扩散模型对图像进行语义修改,无论图像内容如何,都能产生高质量的增强图像。我们的方法提高了测试域中的少量分类准确率,并且在基于Pascal和COCO的任务上提高了10个百分点。类似地,我们的方法在扩散模型词汇表之外的杂草识别数据集上产生增益。为了理解这些增益,我们研究了Stable Diffusion训练数据的潜在泄漏如何影响性能。为了防止评估过程中的泄漏,我们分别针对模型和数据提出了两种防御,每种防御都在防御强度和计算成本之间权衡的不同方面。当受到两种防御时,DA-Fusion始终提高少量射击分类的准确性,这突出了其对数据增强的效用。

在未来的工作中,有几个方向可以提高我们方法的灵活性和性能。首先,我们的方法没有明确控制扩散模型如何增强图像。用一种机制来扩展该方法,以更好地控制图像中的对象如何被修改,例如改变猫的品种,可以改善结果。最近在基于提示的图像编辑方面的工作表明,扩散模型可以在没有像素级监督的情况下进行局部编辑,并且可以最小限度地增加使用DA-Fusion所需的人力。这个扩展将让图像属性由DA-Fusion独立处理,某些属性可以比其他属性更极端地修改。其次,数据增强在决策设置中变得越来越重要。在这种情况下使用我们的方法时,保持时间一致性是一个重要的挑战。解决这一挑战可以提高复杂视觉环境中策略的少量泛化。最后,对我们的扩散模型主干进行改进,增强图像的照片真实感,可能会改善DA-Fusion。

  • 30
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
从扩散模型中提取训练数据是指从已有的扩散模型中提取出用于训练机器学习模型的数据集的过程。 扩散模型是一种模拟现实中扩散现象的数学模型,例如在金融学中用于模拟股票价格的变动,或者在生物学中用于模拟物质在细胞中的扩散。 在提取训练数据的过程中,首先要确定所需的特征和目标变量。特征是用于描述扩散模型状态的变量,可以是时间、位置、扩散系数等。目标变量则是我们希望预测或分析的变量,例如股票价格的变化趋势或物质的浓度分布。 接下来,我们需要从扩散模型中获取实际观测或模拟得到的数据。这些数据可以包括已知的扩散模型状态和对应的目标变量,或者通过模型模拟生成的数据。在金融领域,可以使用已有的交易数据作为输入,例如历史股价、交易量等。在生物学领域,则可以使用实验测得的物质浓度数据。 在数据获取之后,我们可以对数据进行预处理,例如处理缺失值、去除异常值等。然后,根据所选的机器学习算法,可以将数据集分为训练集和测试集。训练集用于训练模型,而测试集用于评估模型的性能。 最后,我们可以利用提取的训练数据来训练机器学习模型,例如使用监督学习算法来进行回归或分类任务。通过训练模型,我们可以学习到扩散模型中隐藏的模式和规律,从而可以对未知数据进行预测或分析。 总之,从扩散模型中提取训练数据是一种得到可以用于机器学习的数据集的过程,可以帮助我们理解和预测扩散现象。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值