【Domain Generalization(4)】领域泛化与文生图之 -- CDGA 跨域生成式数据增强 Cross Domain Generative Augmentation_cross domain generative augmentation: domain gener-CSDN博客

本文链接：https://blog.csdn.net/weixin_44212848/article/details/145147067

系列文章目录

【Domain Generalization(1)】增量学习/在线学习/持续学习/迁移学习/多任务学习/元学习/领域适应/领域泛化概念理解
第一篇了解了 DG 的概念，那么接下来将介绍 DG 近年在文生图中的相关应用/代表性工作。
【Domain Generalization(2)】领域泛化在文生图领域的工作之——PromptStyler(ICCV23)
【Domain Generalization(3)】领域泛化与文生图之 – QUOTA 任意领域生成物体的数量可控
本文则介绍 arXiv 上 23年 12 月，华为诺亚方舟实验室发布的工作 Cross Domain Generative Augmentation: Domain Generalization with Latent Diffusion Models

文章目录

快速讲清楚

任务: 依然是 Image Classification，重点是用 LDM 来做数据增强。
关键是补充了 Cross Domain （两种 Domain 之间）的数据，下图右侧的 -> 部分。
主要做法是
- 1. 提示引导CDGA（CDGA-PG）：给定来自一个域和类的图像，获取其他域的文本描述作为提示，将当前图像增强到相同的其他域的图像类；
- 1. 图像引导CDGA（CDGA-IG）：在域文本描述不可用的情况下，使用图像混合器（类似风格迁移）将每个图像与来自其他域的同类图像进行混合。

在这里插入图片描述

背景

领域泛化问题：在现实场景中，深度学习模型面临分布外（OOD）泛化挑战，即训练集和目标集分布不一致。域泛化（DG）研究在多个源域上学习模型并推广到未知目标域，而经验风险最小化（ERM）在域转移时难以保持性能。
相关工作不足：为提高 ERM 的 OOD 泛化能力，有学习域不变机制和数据增强两类方法。尽管开发新正则化器的研究众多，但简单数据增强在一些情况下表现更优。同时，新数据增强技术的探索较少，且现有正则化器难以捕捉所有不变性，还可能带来优化困难。

动机

理论局限：邻近风险最小化（VRM）通过在域内增加合成样本改进 ERM，但在 DG 中，ERM 的估计误差主要源于域间分布转移，域内简单数据增强无法完全解决。
方法启发：借助预训练的生成模型（如 LDM），有可能在域级别实现 VRM 原则，减少域间差异，从而提高模型泛化能力。

CDGA 方法

理论基础：改写 ERM 损失函数，对比 VRM 可知其在处理域间分布转移上的不足。CDGA 提出新的损失函数，通过从域对附近生成样本填充域间差距，降低非独立同分布性。由于无法直接获取相关分布，利用 LDM 进行采样实现，将域内数据点转换到所有域，增加样本数量。
实现方式
- CDGA with Prompt Guidance (CDGA - PG)：利用域描述文本提示作为引导，用 LDM 生成合成图像，实现不同域同类数据的插值。若有目标域描述，还可直接在训练域和目标域之间插值。
- CDGA with Image Guidance (CDGA - IG)：在无文本提示时，采用图像混合技术，用域内图像作为引导生成合成图像。
单域生成增强（SDGA）：与 CDGA 不同，SDGA 仅从同一域获取引导进行图像增强，包括 SDGA - PG（用包含标签和/或域信息的提示）和 SDGA - IG（用图像和标签信息构建引导）。

实验

实验设置
- 数据集：在 VLCS、PACS、OfficeHome、DomainNet 等数据集评估方法。
- 模型与参数：使用预训练的 stable diffusion 1.4 作为 LDM，CDGA - IG 中图像混合器经微调，图像生成参数采用默认值。设置合适的生成批次大小，使用特定硬件进行实验。
主要实验结果
- DomainBed 基准测试：在不同数据集和模型选择技术下，CDGA 均达到 SOTA 性能，优于现有方法，如在 PACS、OfficeHome、DomainNet 等数据集上表现突出。
- CDGA 与 SDGA 对比：由于 CDGA 的域插值能力，在 PACS 数据集上始终优于 SDGA 及其变体，其中 SDGA - IG 相对其他 SDGA 方法表现较好。
- 数据规模缩放规律：在 PACS 数据集上，增加生成批次大小（即数据规模）可提高模型的 OOD 泛化能力，不过预训练模型性能会趋于饱和。
- 缓解类别不平衡：在 OfficeHome 数据集上，通过为不同类设置不同的批次大小使生成数据平衡，有效提升了 OOD 泛化性能。
- 域转移量化：通过多种量化技术（t - SNE 可视化、近重复分析、可迁移性、多样性转移度量）表明 CDGA 能有效缓解域转移、减少非独立同分布性。例如，t - SNE 可视化显示合成图像可填充域间差距，近重复分析表明能生成与目标域相似的图像等。
- 对抗鲁棒性：在 PACS 数据集上，面对 FGSM 和 PGD 对抗攻击，CDGA 和 CDGA*训练的模型比经典数据增强和 Mixup 方法更具鲁棒性。
- 损失地形分析：CDGA 和 CDGA*导致的局部最小值更平坦，解释了其更好的泛化能力。