这里写自定义目录标题
CaFo:Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners(CVPR 2023)
- 提出一个层叠的基础模型,结合了多种预训练模型的不同先验知识**(CLIP、DINO、DALL-E、GPT-3),并将它们串联**起来以提高少样本学习的性能
- 工作方式:提示、生成、缓存
- 首先,我们利用GPT-3生成文本输入,以提示具有丰富下游语言语义的CLIP
- 然后,我们通过DALL-E生成合成图像,在不需要任何人力的情况下扩展少量的训练数据
- 最后,我们引入了一个可学习的缓存模型来自适应地混合来自CLIP和DINO的预测
- 通过这样的合作,CaFo可以充分释放不同预训练方法的潜力,并将它们统一起来,实现最先进的少弹分类
1 Introduction
在拥有丰富数据集的情况下,卷积神经网络和Transformer模型在各种视觉任务上取得了巨大成功。然而,在数据稀缺和资源有限的情况下,少样本学习也成为了一个研究热点。许多先前的工作在这一领域提出了各种方法,通过元学习、度量学习和数据增强等手段来增强模型的泛化能力。
最近,CLIP模型通过大规模语言-图像对的预训练展现出了良好的零样本迁移能力,为开放词汇的视觉识别提供了有利条件。随后的CoOp、CLIP-Adapter和Tip-Adapter进一步将其扩展为少样本分类,并在各种下游数据集上取得了优越的性能。
作者详细描述了每个模型的预训练目标以及它们在少样本学习中的作用。具体来说,作者通过三个步骤串联这些模型:
- 提示,使用GPT-3生成文本提示,以丰富的语言知识作为输入,促使CLIP模型更好地理解图像
- 生成,利用DALL-E生成额外的训练图像,扩大少样本训练数据集
- 缓存,利用缓存模型自适应地融合来自CLIP和DINO的预测结果
- 通过这种方法,CaFo能够利用多种先验知识,并通过扩展的训练数据来学习融合它们,从而实现更好的少样本学习
我们的主要贡献总结如下:
- 我们提出了CaFo,将从各种预训练范式中学到的先验知识纳入其中,以实现更好的少样本学习。
- 通过整合CLIP、DINO、GPT-3和DALL-E,CaFo利用更多语义提示,丰富了有限的少样本训练数据,并通过缓存模型自适应地融合了多样的预测结果。
- 我们在11个少样本分类数据集上进行了彻底的实验,在不使用额外标注数据的情况下,CaFo取得了最先进的性能。
2 Related work
3 Cascade of Foundation Models
在这一部分,首先简要回顾了CaFo中四种预训练。然后,具体介绍了如何通过“提示、生成、缓存”来串联它们。
3.1 Different Pre-training Paradigms
3.1.1 视觉-语言对比预训练
- 将视觉和语言两种模态通过对比损失映射到同一嵌入空间
- 最小化图像及其文本描述之间的嵌入距离,同时最大化那些未配对的样本
- 选择CLIP作为这种预训练方法的代表模型
3.1.2 视觉对比预训练
- 关注的是不同图像之间的区分
- 由于具有较强的线性分类能力,本文采用预训练的DINO提供视觉-对比知识
3.1.3 生成语言预训练
- 输入少量设计的语言命令,GPT-3能够输出具有丰富语义的提示
- CLIP使用手工制作的模板作为提示,例如“一张[CLASS]的照片”,然而这些模板缺乏足够的文本语义与图像信息对齐。
- 我们利用GPT-3生成更好地与图像信息对齐的CLIP提示。
3.1.4 生成视觉-语言预训练
- DALL-E系列可以以零样本方式生成语言条件的图像
- 经过预训练以自回归地方式从图像的文本标记中预测编码的图像
- 考虑到其公开性,我们选择DALL-E-mini作为DALL-E模型的代表
3.2 Prompt, Generate, then Cache
为了层叠不同的预训练范式,我们引入了CaFo和“提示-生成-缓存”的管道,分别释放了不同的自监督知识的力量。
3.2.1 Prompt with GPT-3
3.2.2 Generate via DALL-E
3.2.3 Cache by CLIP and DINO
3.3. Adaptive Inference
4 Experiments
-
在ImageNet上的比较:
-
在ImageNet上的比较定量性能。对于zero-shot性能,CaFo使用DALL-E生成的图像进行训练,不需要任何少镜头数据。
-
ImageNet的效率比较。我们使用单个A100GPU在16个镜头设置下测试训练时间。
-
Distribution Shift比较,我们在源数据集上训练模型,在目标数据集上测试模型。
-
在10个数据集的比较。我们的方法在不同的数据集上显示了最先进的性能,这表明了优越的泛化能力。
-
消融实验,我们在ImageNet上用1、4和16个shot
-
自适应推理的消融研究。我们在ImageNet上进行了不同的缓存模型集成方法。
5 Conclusion
我们提出了CaFo,这是一系列基础模型,可以理解来自不同预训练的各种知识,并遵循“提示,生成,然后缓存”的流程。我们首先采用生成语言模型GPT-3来为CLIP提示更多的语义文本,并采用DALL-E来扩展少量的训练数据。然后,我们通过统一的缓存模型自适应融合视觉对比DINO和CLIP。通过合作,CaFo实现了少数镜头的最先进性能在11个数据集上学习。