【翻译/笔记】clip-Learning Transferable Visual Models From Natural Language Supervision

最新推荐文章于 2025-04-02 00:24:02 发布

Violet_Stray

最新推荐文章于 2025-04-02 00:24:02 发布

阅读量1.6k

点赞数 11

分类专栏：人工智能论文阅读文章标签： clip 多模态

本文链接：https://blog.csdn.net/weixin_45454859/article/details/139381218

版权

人工智能同时被 2 个专栏收录

11 篇文章

订阅专栏

论文阅读

9 篇文章

订阅专栏

Learning Transferable Visual Models From Natural Language Supervision
从自然语言监督中学习可迁移的视觉模型

摘要

当前顶尖的计算机视觉系统是通过预测一组固定的预定对象类别来训练的。这种有限的监督形式限制了它们的通用性和可用性，因为需要额外的标注数据来指定任何其他视觉概念。直接从有关图像的原始文本中学习是一个有前景的替代方法，它利用了更广泛的监督来源。我们证明了预测哪个标题与哪张图片相匹配这一简单的预训练任务是一种有效且可扩展的方式，可以从零开始在一个包含4亿对（图片，文本）的数据集上学习到最先进的图像表示。预训练后，自然语言被用来引用已学习的视觉概念（或描述新的概念），使模型能够进行零样本转移至下游任务。我们通过在超过30个不同的现有计算机视觉数据集上进行基准测试来研究这种方法的性能，这些任务包括OCR、视频中的行动识别、地理定位以及许多类型的细粒度对象分类。该模型在大多数任务上都能进行非平凡的转移，并且常常与完全监督的基线相媲美，而无需任何特定数据集的训练。例如，我们在ImageNet上的零样本测试中达到了原始ResNet-50的准确度，而不需要使用它所训练的128万训练样本。我们在https://github.com/OpenAI/CLIP 上发布了我们的代码和预训练模型权重。

这里的代码只是用来做推理的代码，openai没有开源预训练的代码，只开源了预训练的模型。

1.Introduction and Motivating Work 引言和动机工作

openAI目标，将一切gpt化

近年来，直接从原始文本中学习的预训练方法已经彻底改变了自然语言处理领域（Dai & Le, 2015; Peters et al., 2018; Howard & Ruder, 2018; Radford et al., 2018; Devlin et al., 2018; Raffel et al., 2019）。如自回归和遮蔽语言模型这样的任务无关目标在计算量、模型容量和数据方面已经扩展了多个数量级，稳步提升了能力。将“文本到文本”作为标准化的输入输出接口（McCann et al., 2018; Radford et al., 2019; Raffel et al., 2019）的开发，使得任务无关的架构能够通过零样本迁移到下游数据集，消除了对专门输出头或数据集特定定制的需求。像GPT-3（Brown et al., 2020）这样的旗舰系统现在在许多任务上与定制模型竞争，几乎不需要任何特定数据集的训练数据。

这些结果表明，现代预训练方法在网页规模的文本集合中可获取的聚合监督超过了高质量众包标注的自然语言处理数据集。然而，在计算机视觉等其他领域，仍然是常规做法在众包标注的数据集如ImageNet（Deng et al., 2009）上进行模型预训练。那么，直接从网络文本学习的可扩展预训练方法是否能在计算机视觉中引发类似的突破？早期的工作是令人鼓舞的。

20多年前，Mori et al. (1999) 尝试通过训练模型预测与图像配对的文本文档中的名词和形容词来改善基于内容的图像检索。Quattoni et al. (2007) 证明通过流形学习可以在预测与图像相关的标题中的单词的分类器的权重空间中学习更高效的图像表示。Srivastava & Salakhutdinov (2012) 通过训练多模态深度玻尔兹曼机在低层图像和文本标签特征之上探索了深度表示学习。Joulin et al. (2016) 现代化了这一研究方向，并展示了训练用来预测图像标题中的单词的CNN学到的图像表示是有用的。他们将YFCC100M数据集（Thomee et al., 2016）中图像的标题、描述和标签元数据转换为词袋多标签分类任务，并展示了预训练AlexNet（Krizhevsky et al., 2012）预测这些标签所学到的表示与基于ImageNet的预训练在迁移任务上表现类似。Li et al. (2017) 随后将这种方法扩展到预测短语n元组以及单个词，并展示了他们的系统通过基于学到的视觉n元组的字典对目标类别进行评分并预测得分最高的类别，实现对其他图像分类数据集的零样本迁移的能力。采用更近期的架构和预训练方法，VirTex（Desai & Johnson, 2020）、ICMLM（Bulent Sariyildiz et al., 2020）和ConVIRT（Zhang et al., 2020）最近展示了基于变换器的语言模型、遮蔽语言模型和对比目标从文本学习图像表示的潜力。

使用的旧的方法，但当年没有transformer，也没有好的数据集。

虽然作为概念验证令人兴奋，但使用自然语言监督进行图像表示学习仍然很少见。这可能是因为在常见基准测试中展示的性能远低于其他方法。例如，Li等人（2017）在ImageNet的零样本设置中仅达到了11.5%的准确率。这远低于当前最先进水平的88.4%准确率（Xie等，2020）。甚至低于经典计算机视觉方法的50%准确率（Deng等，2012）。相反，更狭窄但针对性强的弱监督使用已经提高了性能。Mahajan等人（2018）展示了预测Instagram图片上与ImageNet相关的标签是一种有效的预训练任务。这些预训练模型在微调到ImageNet后，准确率提高了超过5%，并提升了当时的整体最先进水平。Kolesnikov等人（2019）和Dosovitskiy等人（2020）也在更广泛的迁移基准测试集上通过预训练模型预测噪声标签JFT-300M数据集的类别展示了巨大的增益。

这一系列工作代表了从有限的“金标签”监督学习和从实际上无限的原始文本中学习之间的当前实用中间地带。然而，这种方式并非没有妥协。两项工作都仔细设计并在过程中限制了他们的监督到分别为1000类和18291类。自然语言能够表达并因此监督通过其普遍性更广泛的视觉概念集。这两种方法还使用静态的softmax分类器来执行预测，并缺乏动态输出的机制。这严重限制了它们的灵活性，并限制了它们的“零样本”能力。

这些弱监督模型与直接从自然语言学习图像表示的最新探索之间的一个关键区别是规模。虽然Mahajan等人（2018）和Kolesnikov等人（2019）在数百万到数十亿图像上训练了几年的加速器模型，但VirTex、ICMLM和ConVIRT仅在十万到二十万图像上训练了几天的加速器。在这项工作中，我们缩小了这一差距，并研究了在大规模自然语言监督下训练的图像分类器的行为。借助互联网上公开可用的大量此类数据，我们创建了一个包含4亿对（图像，文本）的新数据集，并展示了从头开始训练的ConVIRT的简化版本，我们称之为CLIP（对比语言-图像预训练），是一种从自然语言监督中学习的有效方法。我们通过训练八个模型系列，涵盖了几乎2个数量级的计算，并观察到转移性能是计算的平滑可预测功能（Hestness等，2017；Kaplan等，2020）。我们发现，CLIP与GPT系列相似，在预训练期间学会执行广泛的任务集，包括OCR、地理定位、动作识别等多个任务。我们通过在超过30个现有数据集上进行零样本转移性能的基准测试来衡量这一点，并发现它可以与以前的特定任务的监督模型竞争。我们还通过线性探针表示学习分析确认了这些发现，并表明CLIP在计算效率上优于公开可用的最佳ImageNet模型。我们还发现零样本CLIP模型比同等准确率的监督ImageNet模型具有更高的鲁棒性，这表明对任务无关模型进行零样本评估更能代表模型的能力。这些结果具有重要的政策和伦理意义，我们将在第七节中考虑。

拥有更大的数据集、更大的模型规模。
迁移学习的效果和模型大小正相关

2. Approach 方法

2.1. Natural Language Supervision 自然语言监督

核心：利用自然语言的监督去训练一个比较好的视觉模型

在这里插入图片描述
图1. 我们方法的总结。标准的图像模型通常会联合训练一个图像特征提取器和一个线性分类器来预测某些标签，而CLIP则联合训练一个图像编码器和一个文本编码器，以预测一批（图像，文本）训练样本的正确配对。在测试时，所学的文本编码器通过嵌入目标数据集类别的名称或描述来合成一个零样本线性分类器。

我们方法的核心思想是从自然语言中包含的监督学习感知。如引言中所讨论的，这并不是一个全新的想法，然而描述这一领域工作的术语多种多样，甚至看似矛盾，而且所述动机也各不相同。张等人（2020年）、戈麦斯等人（2017年）、朱林等人（2016年）以及Desai和Johnson（2020年）都介绍了从与图像配对的文本中学习视觉表示的方法，但分别描述它们的方法为无监督、自监督、弱监督和监督。

我们强调，这一系列工作的共同点不在于使用的具体方法的任何细节，而在于对自然语言作为训练信号的重视。所有这些方法都是从自然语言监督中学习。尽管早期工作在使用主题模型和n-gram表示时与自然语言的复杂性作斗争，但在深度上下文表示学习方面的改进表明，我们现在已经拥有了有效利用这一丰富监督源的工具（McCann等人，2017年）。

从自然语言学习与其他训练方法相比有几个潜在的优势。与标准的众包标签对图像分类的监督相比，自然语言监督更容易扩展，因为它不需要将注释放在经典的“机器学习兼容格式”中，如规范的1-of-N多数投票“金标签”。相反，使用自然语言的方法可以从互联网上大量文本中包含的监督中被动学习。从自然语言学习还有一个重要的优势，与大多数无监督或自监督学习方法相比，它不仅仅是学习一个表示，而且还将该表示与语言相连接，使得灵活的零样本迁移成为可能。在以下小节中，我们将详细介绍我们最终确定的具体方法。

好处：
1.不用再标注图片了
2.拥有多模态特征

2.2 Creating a Sufficiently Large Dataset创建一个足够大的数据集

以前数据集的问题：
1.数据量太少
2.标注质量太差
3.清洗之后的数据规模缩减较大

现有工作主要使用了三个数据集，即MS-COCO（Lin等人，2014年）、Visual Genome（Krishna等人，2017年）和YFCC100M（Thomee等人，2016年）。虽然MS-COCO和Visual Genome是高质量的众包标注数据集，但按现代标准来看它们的规模较小，每个大约有100,000张训练照片。相比之下，其他计算机视觉系统在多达35亿张Instagram照片上进行训练（Mahajan等人，2018年）。YFCC100M拥有1亿张照片，是一个可能的替代选择，但每张图片的元数据稀疏且质量参差不齐。许多图片使用像20160716 113957.JPG这样自动生成的文件名作为“标题”，或包含关于相机曝光设置的“描述”。在筛选后，仅保留带有英语自然语言标题和/或描述的图片，数据集缩减了6倍，仅剩1500万张照片。这大约与ImageNet的规模相同。

自然语言监督的一个主要动机是互联网上公开可用的此类大量数据。由于现有数据集不能充分反映这一可能性，仅考虑这些数据集上的结果会低估这一研究方向的潜力。为了解决这个问题，我们构建了一个新的包含4亿对（图像，文本）的数据集，从互联网上公开可用的各种来源收集。为了尽可能覆盖广泛的视觉概念，我们在构建过程中搜索包含一组50万查询之一的（图像，文本）对。我们通过每个查询最多包含2万对（图像，文本）来大致平衡结果。得到的数据集的总词数与用于训练GPT-2的WebText数据集相似。我们将这个数据集称为WIT，即WebImageText。

2.3 Selecting an Efficient Pre-Training Method 选择一个高效的预训练方法

最先进的计算机视觉系统使用大量计算资源。Mahajan等人（2018年）需要19 GPU年来训练他们的ResNeXt101-32x48d，而Xie等人（2020年）需要33 TPUv3核年来训练他们的Noisy Student EfficientNet-L2。考虑到这两个系统都是训练来预测仅1000个ImageNet类别的，从自然语言中学习一个开放集合的视觉概念的任务看起来令人生畏。在我们的努力过程中，我们发现训练效率是成功扩展自然语言监督的关键，我们基于这个指标选择了最终的预训练方法。

我们的初步方法，类似于VirTex，从零开始联合训练一个图像CNN和vit，以预测图像的标题。然而，我们遇到了有效扩展此方法的困难。在图2中，我们展示了一个6300万参数的transformer语言模型，它的计算量已经是其ResNet-50图像编码器的两倍，但学习识别ImageNet类别的速度比预测相同文本的词袋编码的简单基线慢三倍。

蓝色的线就是用transformer去做预测性的任务
橘色的线就是用的词袋的方式去预测，不用逐字逐句的去预测文本了，文本已经被抽象成了一些特征，训练效果提升了3倍
绿色的线就是不用去预测单词了，只需要判断是不是图片文字对就行，训练效果又提升了4倍

在这里插入图片描述图2. CLIP在零样本迁移方面比我们的图像标题基线更高效。尽管表达能力很强，我们发现基于transformer的语言模型在零样本ImageNet分类方面相对较弱。这里我们看到，它学习的速度比预测文本的词袋（BoW）编码的基线慢3倍（Joulin等人，2016年）。将预测目标换成CLIP的对比目标进一步提高了4倍的效率。

这两种方法有一个关键的共同点。它们尝试预测每幅图像所伴随的文本的确切单词。由于描述、评论和与图像共现的相关文本种类繁多，这是一项困难的任务。最近在图像对比表示学习中的研究发现，对比目标可以比相等的预测目标学习到更好的表示（Tian等人，2019年）。其他研究发现，尽管图像的生成模型可以学习高质量的图像表示，但与具有相同性能的对比模型相比，它们需要超过一个数量级的计算量（Chen等人，2020a）。注意到这些发现，我们探索了训练一个系统来解决可能更容易的代理任务，即仅预测哪个文本整体与哪个图像配对，而不是该文本的确切单词。从相同的词袋编码基线开始，我们在图2中将预测目标换成了对比目标，并观察到零样本迁移到ImageNet的效率进一步提高了4倍。

给定一批N个（图像，文本）对，CLIP被训练来预测这批中哪些N×N可能的（图像，文本）配对实际发生了。为此，CLIP通过联合训练图像编码器和文本编码器，最大化批次中N个真实对的图像和文本嵌入的余弦相似性，同时最小化N²-N个错误配对的嵌入的余弦相似性，从而学习一个多模态嵌入空间。我们优化这些相似性得分上的对称交叉熵损失。在图3中，我们包括了CLIP实现核心的伪代码。据我们所知，这种批量构建技术和目标最初是在深度度量学习领域作为多类N对损失由Sohn（2016）引入的，后来由Oord等人（2018）作为InfoNCE损失在对比表示学习中推广，并最近由Zhang等人（2020）针对医学成像领域的对比（文本，图像）表示学习进行了调整。

在训练时，文本编码器和图片编码器都不需要预训练

在这里插入图片描述
图3. CLIP实现核心的类Numpy伪代码。

由于我们的预训练数据集规模庞大，过拟合并不是一个主要问题，与Zhang等人（2020）的实现相比，训练CLIP的细节被简化了。我们从零开始训练CLIP，不使用ImageNet权重初始化图像编码器或使用预训练权重初始化文本编码器。我们不使用表示和对比嵌入空间之间的非线性投影，这一改变由Bachman等人（2019）引入并由Chen等人（2020b）推广。我们只使用线性投影将每个编码器的表示映射到多模态嵌入空间。我们没有注意到两个版本在训练效率上的差异，并推测非线性投影可能与当前仅在自监督表示学习方法中的图像细节共同适应。我们还移除了Zhang等人（2020）中的文本转换函数tu，该函数从文本中均匀采样单个句子，因为CLIP的预训练数据集中的许多（图像，文本）对只有单个句子。我们还简化了图像转换函数tv。训练期间唯一使用的数据增强是从调整大小的图像中随机裁剪正方形。最后，控制softmax中对数范围的温度参数τ，在训练期间作为对数参数化的乘法标量直接优化，以避免将其作为超参数调整。

1.作者用的是线性投射，并猜测这种非线性的投射是用来适配纯图片的单模态学习的。
2.因为数据集很大，所以并没有做数据增强，唯一使用的数据增强是随即裁剪正方形。
3.因为数据集太大，模型太大，不好做调参工作。在对比学习中非常重要的参数“Temperature”，作者在此将其设置为了一个可以学习的标量，在训练模型的过程中就被优化了，而不需要当成一个超参数。

2.4 选择和扩展模型

我们考虑了两种不同的图像编码器架构。对于第一种，我们由于其广泛的采用和验证的性能，选择使用ResNet-50（He等人，2016a）作为图像编码器的基础架构。我们对原始版本进行了几处修改，采用了He等人（2019）的ResNet-D改进和张（2019）的抗锯齿rect-2模糊池化。我们还将全局平均池化层替换为注意力池化机制。注意力池化被实现为单层的“变换器风格”多头QKV注意力，其中查询依赖于图像的全局平均池化表示。对于第二种架构，我们尝试了最近引入的 ViT（Dosovitskiy等人，2020）。我们紧密跟随他们的实现，仅对组合的补丁和位置嵌入在变换器前添加了一个额外的层规范化，并使用了略有不同的初始化方案。

文本编码器是一个Transformer（Vaswani等人，2017），采用Radford等人（2019）描述的架构修改。作为基本大小，我们使用一个具有63M参数的12层宽度为512的模型，拥有8个注意力头。变换器操作在小写的字节对编码（BPE）文本表示上，词汇表大小为49,152（Sennrich等人，2015）。为了计算效率，最大序列长度被限制在76。文本序列以[SOS]和[EOS]标记为界，并将变换器最高层在[EOS]标记处的激活视为文本的特征表示，该表示经过层规范化后线性投影到多模态嵌入空间。文本编码器中使用了掩码自注意力，以保留使用预训练语言模型初始化的能力或添加语言建模作为辅助目标的能力，尽管其探索留作未来工作。

虽然以往的计算机视觉研究常通过增加宽度（Mahajan等人，2018）或深度（He等人，2016a）来单独扩展模型，但对于ResNet图像编码器，我们采用了Tan和Le（2019）的方法，他们发现在宽度、深度和分辨率上增加额外计算能力比仅在模型的一个维度上增加计算能力表现更好。虽然Tan和Le（2019）调整了他们的EfficientNet架构中分配给每个维度的计算比例，我们使用了一个简单的基线，将额外计算能力平均分配给增加模型的宽度、深度和分辨率。对于文本编码器，我们仅将模型的宽度按照ResNet宽度增加的比例进行缩放，并不缩放深度，因为我们发现CLIP的性能对文本编码器的容量不太敏感。

2.5 训练

我们训练了5个ResNet和3个Vit。对于ResNet，我们训练了一个ResNet-50、一个ResNet-101，然后再训练3个采用EfficientNet风格模型缩放的，分别使用约4倍、16倍和64倍ResNet-50的计算量。它们分别被标记为RN50x4、RN50x16和RN50x64。对于Vit，我们训练了一个ViT-B/32、一个ViT-B/16和一个ViT-L/14。所有模型都训练了32个epoch。我们使用Adam优化器（Kingma & Ba, 2014）和解耦的权重衰减正则化（Loshchilov & Hutter, 2017），应用于所有非增益或偏置的权重，并使用余弦调度（Loshchilov & Hutter, 2016）衰减学习率。最初的超参数是通过在1个epoch的基线ResNet-50模型上进行网格搜索、随机搜索和手动调优来设置的。然后由于计算限制，超参数被启发式地适应更大的模型。可学习的温度参数τ初始化为0.07（来自Wu等人，2018），并进行了裁剪，以防止将对数乘以超过100，我们发现这是防止训练不稳定所必需的。我们使用非常大的小批量尺寸，为32,768。混合精度（Micikevicius等人，2017）被用来加速训练和节省内存。为了节省额外的内存，使用了梯度检查点（Griewank & Walther, 2000; Chen等人，2016）、半精度Adam统计（Dhariwal等人，2020）和半精度随机舍入的文本编码器权重。嵌入相似性的计算也被分片，每个GPU只计算其本地批次嵌入所需的一部分成对相似性。最大的ResNet模型，RN50x64，在592个V100 GPU上训练了18天，而最大的Vit在256个V100 GPU上训练了12天。对于ViT-L/14，我们还在更高的336像素分辨率上预训练了一个额外的epoch，以提升性能，类似于FixRes（Touvron等人，2019）。我们将这个模型称为ViT-L/14@336px。除非另有说明，本文报告的所有结果均使用此模型，我们发现它的性能最好。

3.Experiments 实验

3.1 Zero-Shot Transfer 零样本迁移

3.1.1 MOTIVATION 动机

之前的自监督或者无监督的方法，主要研究的是特征学习能力，即去学习一种泛化性较好的特征。但即使学到了很好的特征，若想应用到下游任务时，仍要用有标签的数据去进行微调。
于是会出现一些问题：1.有些下游任务不好收集数据，2.有distribution shift的问题
所以：如何去训练一个模型，面对下游任务的时候就不用再训练或者仅仅微调就可以呢？
Zero-Shot的动机

在计算机视觉中，零样本学习通常指的是在图像分类中推广到未见过的对象类别的研究（Lampert等人，2009）。相比之下，我们更广泛地使用这一术语，研究对未见过的数据集的泛化能力。我们将其作为执行未见任务的代理，正如Larochelle等人（2008）在零数据学习论文中所期望的那样。尽管无监督学习领域的大量研究关注于机器学习系统的表示学习能力，我们提出研究零样本迁移作为一种衡量机器学习系统的任务学习能力的方法。在这种观点中，数据集评估在特定分布上的任务性能。然而，许多流行的计算机视觉数据集主要由研究社区创建，用作评估通用图像分类方法的基准，而不是衡量特定任务的性能。虽然可以合理地说，SVHN数据集衡量的是在Google街景照片分布上的街道号码转录任务，但CIFAR-10数据集衡量的“真实”任务是什么却不清楚。然而，CIFAR-10的数据来源是明确的——TinyImages（Torralba等人，2008）。在这类数据集上，零样本迁移更多地评估的是CLIP对分布变化和领域泛化的鲁棒性，而不是任务泛化。请参见第3.3节，重点分析这一点。

据我们所知，视觉N-Grams（Li等人，2017）首次研究了零样本迁移到现有图像分类数据集的方式，正如上文所述。这也是我们所知道的唯一一项使用通用预训练模型研究零样本迁移到标准图像分类数据集的其他工作，并作为理解CLIP的最佳参考点。他们的方法学习了一个包含142,806个视觉n-grams（涵盖1到5-gram）的字典的参数，并使用Jelinek-Mercer平滑的差异化版本优化这些n-grams，以最大化给定图像的所有文本n-grams的概率。为了执行零样本迁移，他们首先将数据集类别名称的文本转换为其n-gram表示，然后根据他们的模型计算其概率，预测得分最高的一个。

我们将零样本迁移作为任务学习的评估的重点研究，受到了在自然语言处理领域展示任务学习的工作的启发。据我们所知，Liu等人（2018）首次将任务学习确定为在训练生成维基百科文章的语言模型中学会可靠地在语言之间转录姓名时的“意外副作用”。虽然GPT-1（Radford等人，2018）专注于作为传递学习方法的预训练，以改善监督式微调，但它还包括了一个剥离研究，证明了四种启发式零样本迁移方法在预训练过程中的性能稳步提高，而无需任何监督适应。这一分析成为了专门研究通过零样本迁移语言模型的任务学习能力的GPT-2（Radford等人，2019）的基础。

3.1.2 使用CLIP进行零样本迁移

CLIP被预训练来预测图像和文本片段是否在其数据集中配对。为了执行零样本分类，我们重用这一能力。对于每个数据集，我们使用数据集中所有类别的名称作为潜在文本配对集，并预测CLIP中最可能的（图像，文本）配对。更具体地说，我们首先通过各自的编码器计算图像的特征嵌入和可能文本集的特征嵌入。然后计算这些嵌入的余弦相似性，通过温度参数τ缩放，并通过softmax标准化成概率分布。请注意，这个预测层是一个具有L2规范化输入、L2规范化权重、无偏置和温度缩放的多项逻辑回归分类器。从这种方式解释时，图像编码器是计算图像的特征表示的计算机视觉主干，而文本编码器是一个超网络（Ha等人，2016），它基于指定类别所代表的视觉概念的文本生成线性分类器的权重。Lei Ba等人（2015）首次介绍了这种形式的零样本图像分类器，而从自然语言生成分类器的想法至少可以追溯到Elhoseiny等人（2013）。继续这种解释，CLIP预训练的每一步都可以被视为优化随机创建的代理的性能，这个代理对应一个计算机视觉数据集，该数据集每个类别有1个示例，并通过自然语言描述定义了总共32,768个类别。对于零样本评估，我们会缓存一旦由文本编码器计算出的零样本分类器，并在随后的所有预测中重用它。这允许将其生成的成本在数据集中的所有预测中分摊。

3.1.3 与视觉N-Grams的初步比较

在表1中，我们将视觉N-Grams与CLIP进行了比较。最佳的CLIP模型将ImageNet的准确率从一个概念验证的11.5%提高到76.2%，并且在没有使用该数据集可用的128万众包标注训练样本的情况下，达到了原始ResNet-50的性能水平。此外，CLIP模型的前5准确率明显高于前1准确率，该模型的前5准确率为95%，与Inception-V4（Szegedy等人，2016）相匹配。在零样本设置中匹配强大的、完全监督的基线性能的能力表明，CLIP是朝着灵活实用的零样本计算机视觉分类器迈出了重要一步。如上所述，与视觉N-Grams的比较旨在为CLIP的性能提供背景，不应被解释为CLIP和视觉N-Grams之间的直接方法比较，因为两个系统间许多影响性能的差异未被控制。例如，我们在一个规模是视觉N-Grams训练数据集10倍的数据集上训练，使用了每次预测几乎需要100倍更多计算的视觉模型，可能使用了超过1000倍的训练计算，并使用了一个基于变换器的模型，该模型在发布视觉N-Grams时还不存在。作为更接近的比较，我们在视觉N-Grams训练的同一个YFCC100M数据集上训练了一个CLIP ResNet-50，并发现它在V100 GPU日内匹配了他们报告的ImageNet性能。这个基线也是从头开始训练的，而不是像视觉N-Grams那样从预训练的ImageNet权重初始化。
在这里插入图片描述
表1. 将CLIP与之前的零样本迁移图像分类结果进行比较。CLIP在所有三个数据集上的性能都有大幅提升。这种改进反映了自视觉N-Grams（Li等人，2017年）开发以来的4年间的许多差异。

CLIP在另外两个报告的数据集上也表现优于视觉N-Grams。在aYahoo上，CLIP实现了错误数量的95%减少，在SUN上，CLIP的准确率是视觉N-Grams的两倍多。为了进行更全面的分析和压力测试，我们实现了一个更大的评估套件，详见附录A。总的来说，我们从视觉N-Grams报告的3个数据集扩展到包括超过30个数据集，并与超过50个现有的计算机视觉系统进行比较，以提供结果的背景。

3.1.4. 提示工程和集成

为什么要做提示词工程：
1.多义性。存在一词多义，在未给定上下文时，很难判断这个词的具体含义。
2.在做预训练的时候，都是用句子进行训练的，很少是一个单词。若在推理时，只有一个单词，可能就会出现distribution gap的问题，抽取出来的特征可能就不是很好。
（“distribution gap”分布差异，就是你准备的知识与实际遇到的环境之间的差异。）
于是创建了一个提示模板，是一个句子，一词多义问题部分解决。
若能提前知道一些信息，推理更有作用。

大多数标准图像分类数据集将命名或描述类的信息视为后顾之忧，这些信息使得基于自然语言的零样本迁移成为可能。绝大多数数据集仅用数字ID标注图像，并包含一个文件将这些ID映射回它们的英文名称。一些数据集，如Flowers102和GTSRB，在它们发布的版本中似乎根本不包括这种映射，从而完全阻止了零样本迁移。对于许多数据集，我们观察到这些标签可能被有些随意地选择，没有预见到依赖任务描述进行成功迁移的零样本迁移相关问题。

一个常见的问题是多义性。当类的名称是提供给CLIP文本编码器的唯一信息时，由于缺乏上下文，它无法区分所指的词义。在某些情况下，同一个词的多个意义可能作为同一数据集中的不同类别出现！这种情况发生在ImageNet中，它既包含建筑起重机也包含会飞的鹤。另一个例子是在Oxford-IIIT宠物数据集的类别中，单词boxer显然是指一种狗的品种，但对于缺乏上下文的文本编码器来说，同样可能指一种运动员。

我们遇到的另一个问题是，在我们的预训练数据集中，与图像配对的文本只是一个单词的情况相对罕见。通常文本是一个完整的句子以某种方式描述图像。为了帮助弥合这种分布差距，我们发现使用提示模板“A photo of a {label}.”是一个很好的默认选择，它有助于指定文本是关于图像的内容。这通常比仅使用标签文本的基线性能有所提高。例如，仅使用这个提示就将ImageNet的准确率提高了1.3%。

类似于围绕GPT-3（Brown等人，2020; Gao等人，2020）的“提示工程”讨论，我们也观察到，通过定制每个任务的提示文本，可以显著提高零样本性能。以下是一些非详尽的例子。我们发现，在几个细粒度图像分类数据集上，指定类别是有帮助的。例如，在Oxford-IIIT宠物数据集上，使用“A photo of a {label}, a type of pet.”来提供上下文表现良好。同样，在Food101上指定食物类型，在FGVC Aircraft上指定飞机类型也有帮助。对于OCR数据集，我们发现在被识别的文本或数字周围加上引号可以提高性能。最后，我们发现在卫星图像分类数据集上，指明图像是这种形式有所帮助，我们使用“a satellite photo of a {label}.”的变体。

我们还尝试了通过多个零样本分类器进行集成作为提高性能的另一种方式。这些分类器是通过使用不同的上下文提示计算出来的，比如“A photo of a big {label}”和“A photo of a small {label}”。我们在嵌入空间而不是概率空间上构建集成。这允许我们缓存一组平均的文本嵌入，以便在多次预测中摊销后，集成的计算成本与使用单个分类器相同。我们观察到，在许多生成的零样本分类器中进行集成可以可靠地提高性能，并且我们对大多数数据集使用了它。在ImageNet上，我们集成了80种不同的上下文提示，这比上面讨论的单一默认提示额外提高了**3.5%**的性能。综合考虑提示工程和集成，提高了ImageNet的准确率近5%。在图4中，我们展示了提示工程和集成如何改变一组CLIP模型的性能，与Li等人（2017）直接嵌入类名的无上下文基线方法相比。

3.1.5. ANALYSIS OF ZERO-SHOT CLIP PERFORMANCE 零样本CLIP性能分析

由于计算机视觉的任务无关零样本分类器研究不足，CLIP提供了一个很好的机会来更好地理解这类模型。在本节中，我们研究了CLIP零样本分类器的各种属性。作为第一个问题，我们简单地查看零样本分类器的表现如何。为了将这一点具体化，我们将其与一个简单的现成基线进行比较：在标准ResNet-50的特征上拟合一个完全监督的、规范化的逻辑回归分类器。在图5中，我们展示了这一比较在27个数据集上的情况。具体数据集和设置的细节请参见附录A。

Linear Probing：测试预训练模型性能的一种方法。
预训练模型的表征层的特征固定，参数固化后未发生改变，只通过监督数据去训练分类器（通常是Softmax分类器或者SVM分类器等等）。
只训练这个线性层就是linear probe。

这里ResNet-50是在ImageNet上用有监督的方式训练好的一个模型，从模型中抽取特征，在下游任务上添加分类头，采取Linear Probe的方式去微调分类头。
作者将ResNet-50微调后的效果当作了基线

在这里插入图片描述

能看出Clip在物体分类上表现都不错
但在更难更抽象的物体上表现较差（物体计数、纹理分类、肿瘤分类）

零样本CLIP比这一基线略有优势，且在27个数据集中赢得了16个。查看单个数据集揭示了一些有趣的行为。在细粒度分类任务上，我们观察到性能分布较广。在这些数据集中的两个，即斯坦福汽车和Food101上，零样本CLIP比在ResNet-50特征上的逻辑回归提高了20%以上，而在另外两个，即Flowers102和FGVCAircraft上，零样本CLIP的表现低于10%以上。在OxfordPets和Birdsnap上，表现则更为接近。我们怀疑这些差异主要是由于WIT和ImageNet之间每个任务的监督量不同。在像ImageNet、CIFAR10/100、STL10和PascalVOC2007这样的通用对象分类数据集上，性能相对类似，所有情况下零样本CLIP都略占优势。在STL10上，CLIP达到了99.3%的总体表现，这似乎是一个新的最佳表现，尽管没有使用任何训练样本。零样本CLIP在两个测量视频中动作识别的数据集上明显优于ResNet-50。在Kinetics700上，CLIP比ResNet-50高出14.5%。零样本CLIP在UCF101上也比ResNet-50的特征高出7.7%。我们推测这是因为自然语言为涉及动词的视觉概念提供了更广泛的监督，相比之下ImageNet中以名词为中心的对象监督。

观察到零样本CLIP明显表现不佳的领域，我们发现零样本CLIP在一些专业的、复杂的或抽象的任务上相当弱，例如卫星图像分类（EuroSAT和RESISC45）、淋巴结肿瘤检测（PatchCamelyon）、在合成场景中计数对象（CLEVRCounts）、与自动驾驶相关的任务如德国交通标志识别（GTSRB）、识别到最近车辆的距离（KITTI Distance）。这些结果突出了零样本CLIP在更复杂任务上的能力不足。相比之下，非专家人类可以稳健地执行这些任务中的几个，如计数、卫星图像分类和交通标志识别，这表明有很大的改进空间。然而，我们要谨慎，因为不清楚衡量零样本迁移，而不是少样本迁移，对于学习者没有任何先验经验的困难任务（如几乎所有人类和可能的CLIP的淋巴结肿瘤分类）是否是一个有意义的评估。

在将零样本性能与完全监督模型进行比较以体现CLIP的任务学习能力的同时，与少样本方法进行比较是更直接的比较，因为零样本是其极限。在图6中，我们展示了零样本CLIP与许多图像模型特征上的少样本逻辑回归（包括最佳的公开可用的ImageNet模型、自监督学习方法和CLIP本身）的比较。虽然直观上期望零样本表现不如一样本，我们却发现零样本CLIP与同一特征空间上的4样本逻辑回归的性能相匹配。这很可能是由于零样本和少样本方法之间的重要区别。首先，CLIP的零样本分类器是通过自然语言生成的，这允许直接指定视觉概念（“传达”）。相比之下，“常规”的监督学习必须从训练样本中间接推断概念。无上下文的基于示例的学习的缺点是，许多不同的假设可以与数据一致，尤其是在一样本情况下。单个图像通常包含许多不同的视觉概念。尽管一个有能力的学习者能够利用视觉线索和启发式方法（例如假设被演示的概念是图像中的主要对象），但这并无保证。

同样使用Linear Probe的方式对模型进行微调，对于Clip，作者冻住了图片编码器然后进行Linear Probe（没有文本编码器）。
别的模型因为没有和自然语言进行结合，所以没法进行zero-shot，最低也只能通过one-shot开始。
这里的平均分是指在刚刚的20（因为有7个数据集中分类还不足16个）个数据集上的分数平均。
提问：为什么这里one-shot的效果比zero-shot的效果还低？
是因为one-shot用的预测方式和神经网络结构和zero-shot不一样：前者会加分类头，网络结构是图像编码器+分类头；后者不用更改模型，是用完整的CLIP模型预测。
也可以看出来多模态学习的强大之处

bit模型是为迁移学习专门打造的，可以说是在few-shot中表现最好的模型之一

在这里插入图片描述
图6. 零样本CLIP的表现超过少样本线性探针。零样本CLIP的平均表现与在同一特征空间上训练的4样本线性分类器相匹配，并且几乎达到了公开可用模型中16样本线性分类器的最佳结果。对于BiT-M和SimCLRv2，表现最佳的模型被突出显示。浅灰色线条是评估套件中的其他模型。这项分析使用了每类至少有16个样本的20个数据集。

解决零样本和少样本性能差异的一个潜在方法是使用CLIP的零样本分类器作为少样本分类器权重的先验。虽然向生成的权重添加L2惩罚是这个想法的直接实现，我们发现超参数优化通常选择这种正则化器的很大值，以至于生成的少样本分类器“仅仅”是零样本分类器。研究将零样本迁移的强度与少样本学习的灵活性相结合的更好方法是未来工作的一个有希望的方向。

在将零样本CLIP与其他模型特征上的少样本逻辑回归进行比较时，零样本CLIP大致与我们评估套件中表现最好的16样本分类器相匹配，该分类器使用的是在ImageNet-21K上训练的BiT-M ResNet-152x2的特征。我们确信在JFT-300M上训练的BiT-L模型会表现得更好，但这些模型尚未公开发布。BiT-M ResNet-152x2在16样本设置中表现最好有些令人惊讶，因为如3.2节分析的那样，Noisy Student EfficientNet-L2在完全监督设置中的平均表现几乎比它高出5％，跨越27个数据集。

除了研究零样本CLIP和少样本逻辑回归的平均性能外，我们还检查了个别数据集上的表现。在图7中，我们展示了同一特征空间上的逻辑回归分类器需要匹配零样本CLIP性能的每类标记样本的数量估计。由于零样本CLIP也是线性分类器，这估计了该设置中零样本迁移的有效数据效率。为了避免训练数千个线性分类器，我们基于1、2、4、8、16样本（可能的情况下）和每个数据集上训练的完全监督线性分类器的性能的对数线性插值来估计有效数据效率。我们发现零样本迁移的效率因数据集而异，从每类不到1个标记样本到184个不等。两个数据集，Flowers102和EuroSAT，表现不如一样本模型。半数数据集每类需要不到5个样本，中位数为5.4。然而，平均估计的数据效率为每类20.8个样本。这是因为20％的数据集中，监督分类器需要许多标记样本才能匹配性能。在ImageNet上，零样本CLIP的表现与在同一特征空间上训练的16样本线性分类器相匹配。

在这里插入图片描述
图7. 零样本迁移的数据效率差异很大。计算在相同的CLIP特征空间上的线性分类器需要多少每类标记样本以匹配零样本分类器的性能，从而体现零样本迁移的有效性。这些值是基于1、2、4、8、16样本以及完全监督结果的对数线性插值估计的。性能差异很大，从两个数据集上仍然表现不如一样本分类器，到匹配估计每类184个标记样本。

3.2. Representation Learning 表征学习

用上全部的下游任务数据去进行微调，与之前的模型进行比较
两种常见的方式去衡量模型学到的特征好不好：
1.fine-tune
2.Linear probe
作者这里选择了Linear probe的方式，因为作者的目的是研发一个好的预训练模型，所以在此是要判断预训练模型好不好，不能用fine-tune对参数进行改变。
而且不用怎么调参。

虽然我们已经通过零样本迁移广泛分析了CLIP的任务学习能力，但研究模型的表征学习能力更为常见。评估表征的质量的方法有很多，对于“理想”表征应具备的属性也存在分歧（Locatello 等人，2020）。一种常见的方法是在模型提取的表征上拟合线性分类器，并测量其在各种数据集上的性能。另一种方法是测量端到端的fine-tuning模型的性能。这增加了灵活性，以前的工作已经有力地证明了在大多数图像分类数据集上，微调的性能超过了线性分类（Kornblith 等人，2019; Zhai 等人，2019）。虽然微调的高性能出于实际原因激励了其研究，但我们仍然选择基于线性分类器的评估，原因有几个。我们的工作侧重于开发高性能的任务和数据集无关的预训练方法。由于微调在微调阶段将表征适应到每个数据集，它可以补偿并可能掩盖预训练阶段未能学习到的通用和鲁棒的表征的失败。由于线性分类器的灵活性有限，它反而突显了这些失败，并在开发过程中提供了清晰的反馈。对于CLIP，训练有监督的线性分类器具有附加好处，因为它与用于其零样本分类器的方法非常相似，这使得在第3.1节中进行广泛的比较和分析成为可能。最后，我们旨在将CLIP与许多任务上的现有模型进行广泛比较。在27个不同数据集上研究66个不同模型需要调整1782个不同的评估。微调开启了一个更大的设计和超参数空间，这使得公平评估和比较不同技术变得困难且计算代价高昂，正如其他大规模实证研究中所讨论的（Lucic 等人，2018; Choi 等人，2019）。相比之下，线性分类器需要最小的超参数调整，并有标准化的实现和评估程序。有关评估的更多细节，请参见附录A。

横坐标表示对于一张图片来说，做一遍前向过程，需要的计算量，纵坐标是很多数据上的平均准确度。也就是说越靠近左上角越好

在这里插入图片描述
图10. CLIP模型的线性探针性能与最先进的计算机视觉模型进行比较，包括EfficientNet（Tan & Le, 2019; Xie et al., 2020）、MoCo（Chen et al., 2020d）、Instagram预训练的ResNeXt模型（Mahajan et al., 2018; Touvron et al., 2019）、BiT（Kolesnikov et al., 2019）、ViT（Dosovitskiy et al., 2020）、SimCLRv2（Chen et al., 2020c）、BYOL（Grill et al., 2020）以及原始的ResNet模型（He et al., 2016b）。（左）分数是根据Kornblith等人（2019）研究的12个数据集的平均值。（右）分数是根据包含更广泛分布的27个数据集的平均值。虚线表示在比预训练更高分辨率的图像上进行微调或评估的模型。具体分数见表10，各数据集的图表见图20。

图10总结了我们的发现。为了最小化可能引起确认或报告偏见的选择效应，我们首先研究了Kornblith 等人（2019）的12个数据集评估套件的性能。虽然小型CLIP模型如ResNet-50和ResNet-101超越了在ImageNet-1K上训练的其他ResNet（BiT-S和原版），但它们的性能低于在ImageNet-21K上训练的ResNet（BiT-M）。这些小型CLIP模型的性能也低于具有类似计算需求的EfficientNet家族的模型。然而，使用CLIP训练的模型具有非常好的扩展性，我们训练的最大模型（ResNet-50x64）在总体得分和计算效率上略微超过了表现最好的现有模型（噪声学生EfficientNet-L2）。我们还发现CLIP vit的计算效率是CLIP ResNet的大约3倍，这使我们能够在我们的计算预算内达到更高的总体性能。这些结果定性地复制了Dosovitskiy 等人（2020）的发现，后者报告称在足够大的数据集上训练时，Vit比卷积网络更具计算效率。我们最好的整体模型是一个在我们的数据集上以336像素的更高分辨率微调了一个额外epoch的ViT-L/14。这个模型在这个评估套件上的表现比最佳现有模型平均高出2.6%。

正如图21所定性显示的，CLIP模型学习了比以前在单个从随机初始化端到端训练的计算机视觉模型中演示的任务集更广泛。这些任务包括地理定位、光学字符识别、面部情绪识别和动作识别。这些任务都没有在Kornblith等人（2019）的评估套件中进行测量。可以认为这是Kornblith等人（2019）的研究中存在的一种选择偏见，偏向于与ImageNet重叠的任务。为了解决这一问题，我们还在一个更广泛的27个数据集评估套件上测量性能。这个评估套件在附录A中有详细描述，包括代表上述任务的数据集、德国交通标志识别基准（Stallkamp等人，2011），以及从VTAB（Zhai等人，2019）改编的几个其他数据集。

在这个更广泛的评估套件中，CLIP的优势更为明显。所有CLIP模型，无论规模大小，都在计算效率方面超过了所有评估的系统。最佳模型的平均得分较之前的系统提高了从2.6%到5%。我们还发现，自监督系统在我们更广泛的评估套件上表现更好。例如，尽管SimCLRv2在Kornblith等人（2019）的12个数据集上的平均表现仍低于BiT-M，但在我们的27个数据集评估套件上，SimCLRv2的表现超过了BiT-M。这些发现表明，继续扩大任务的多样性和覆盖范围，以便更好地理解系统的“通用”性能是有价值的。我们认为沿VTAB的评估工作将是有价值的。

除了上述的综合分析外，我们在图11中可视化了最佳CLIP模型与我们评估套件中最佳模型在所有27个数据集上的表现差异。CLIP在27个数据集中的21个上超过了噪声学生EfficientNet-L2。CLIP在需要OCR（SST2和HatefulMemes）、地理定位和场景识别（Country211, SUN397）以及视频中的活动识别（Kinetics700和UCF101）的任务上改进最大。此外，CLIP在细粒度的汽车和交通标志识别（Stanford Cars和GTSRB）上也表现得更好。这可能反映了ImageNet监督过于狭窄的问题。例如在GTSRB上的14.7%的改进可能表明ImageNet-1K存在问题，因为它对所有交通和街道标志只有一个标签。这可能鼓励监督表示合并类内细节，从而损害了细粒度下游任务的准确性。如前所述，CLIP在几个数据集上的表现仍低于EfficientNet。不出所料，EfficientNet相对于CLIP表现最好的数据集是它所训练的：ImageNet。EffcientNet在如CIFAR10和CIFAR100这样的低分辨率数据集上也略微优于CLIP。我们怀疑这至少部分是由于CLIP缺乏基于规模的数据增强。EfficientNet在PatchCamelyon和CLEVRCounts这样的数据集上也略有优势，这些数据集上两种方法的总体表现仍然较低。

在这里插入图片描述
图11. CLIP的特征在多种数据集上超越了最佳ImageNet模型的特征。在CLIP的特征上拟合线性分类器，在27个数据集中的21个上超过了使用噪声学生EfficientNet-L2的表现。

3.3. Robustness to Natural Distribution Shift 对自然分布偏移的鲁棒性

2015年，有报道称深度学习模型在ImageNet测试集上超过了人类的表现（He等人，2015）。然而，随后几年的研究反复发现，这些模型仍然会犯许多简单的错误（Dodge & Karam, 2017; Geirhos等人, 2018; Alcorn等人, 2019），而针对这些系统的新基准测试通常发现它们的表现远低于它们在ImageNet上的准确率和人类的准确率（Recht等人, 2019; Barbu等人, 2019）。是什么导致了这种差异？已经提出并研究了各种想法（Ilyas等人, 2019; Geirhos等人, 2020）。提出的解释的共同主题是，深度学习模型非常擅长发现在其训练数据集中普遍存在的相关性和模式，从而提高分布内性能。然而，许多这些相关性和模式实际上是假的，并不适用于其他分布，并导致在其他数据集上性能大幅下降。

我们提醒，到目前为止，大多数这些研究将评估限制在在ImageNet上训练的模型上。回顾讨论的主题，从这些初步发现中过分推广可能是一个错误。这些失败在多大程度上可归因于深度学习、ImageNet，或这两者的某种组合？CLIP模型通过自然语言监督在一个非常大的数据集上训练，并能够实现高零样本性能，提供了从不同角度探讨这个问题的机会。

Taori等人（2020）是一项最近的全面研究，旨在量化和理解ImageNet模型的这些行为。Taori等人（2020）研究了当在自然分布偏移上评估时，ImageNet模型的性能如何变化。他们测量了在7种分布偏移上的性能：ImageNetV2（Recht等人, 2019），ImageNet Sketch（Wang等人, 2019），Youtube-BB和ImageNet-Vid（Shankar等人, 2019），ObjectNet（Barbu等人, 2019），ImageNet Adversarial（Hendrycks等人, 2019），以及ImageNet Rendition（Hendrycks等人, 2020a）。他们将这些数据集区分开来，这些数据集都包含从各种来源收集的新图像，与如ImageNet-C（Hendrycks & Dietterich, 2019），Stylized ImageNet（Geirhos等人, 2018）或对抗攻击（Goodfellow等人, 2014）等合成分布偏移不同，后者是通过以各种方式扰动现有图像创建的。他们提出这种区分部分是因为他们发现，虽然几种技术已被证明可以提高在合成分布偏移上的性能，但它们通常未能在自然分布上取得一致的改进。

在这些收集的数据集上，ImageNet模型的准确率远低于ImageNet验证集设定的预期。关于以下总结性讨论，我们报告所有7个自然分布偏移数据集的平均准确率，以及ImageNet相应类别子集的平均准确率，除非另有说明。此外，对于Youtube-BB和ImageNet-Vid，它们有两种不同的评估设置，我们使用pm-0和pm-10准确率的平均值。

当在这些自然分布偏移上评估时，ResNet-101的错误率是在ImageNet验证集上的5倍。然而，令人鼓舞的是，Taori等人（2020）发现，分布偏移下的准确率与ImageNet准确率呈可预测的增长，并且可以很好地用对数变换的准确率的线性函数来建模。Taori等人（2020）利用这一发现提出，鲁棒性分析应该区分有效鲁棒性和相对鲁棒性。有效鲁棒性衡量在分布偏移下的准确率改进，超出了分布内和分布外准确率之间记录关系预测的范围。相对鲁棒性捕获了分布外准确率的任何改进。Taori等人（2020）认为，鲁棒性技术应该旨在同时提高有效鲁棒性和相对鲁棒性。

几乎所有在 Taori 等人（2020）研究中的模型都是在 ImageNet 数据集上训练或微调的。回到本节引言中的讨论——是针对 ImageNet 数据集分布的训练或调整导致了观察到的鲁棒性差距吗？直观上，一个零样本模型不应该能够利用仅在特定分布上存在的虚假相关性或模式，因为它没有在那个分布上进行训练。因此，合理地预期零样本模型会具有更高的有效鲁棒性。在图13中，我们比较了零样本CLIP与现有ImageNet模型在自然分布偏移上的表现。所有零样本CLIP模型都大幅提高了有效鲁棒性，并将ImageNet准确率与分布偏移下的准确率之间的差距减少了高达75%。

在这里插入图片描述
图13. 零样本CLIP对分布偏移的鲁棒性远超标准ImageNet模型。（左图）理想的鲁棒模型（虚线）在ImageNet分布和其他自然图像分布上表现同样出色。零样本CLIP模型将这种“鲁棒性差距”缩小了高达75%。基于逻辑转换值的线性拟合显示了具有自举估计的95%置信区间。（右图）可视化分布偏移对香蕉的影响，这是7个自然分布偏移数据集中的5个共有的类别。最佳零样本CLIP模型ViT-L/14@336px的表现与在ImageNet验证集上表现相同的模型ResNet-101进行了比较。

虽然这些结果表明零样本模型可能更加鲁棒，但它们并不必然意味着在ImageNet上的监督学习导致了鲁棒性差距。CLIP的其他细节，如其庞大且多样化的预训练数据集或使用自然语言监督，也可能导致模型无论是零样本还是微调都更加鲁棒。作为一项初步实验，以潜在地开始缩小这一范围，我们还测量了CLIP模型在通过L2正则化逻辑回归分类器适应ImageNet分布后的表现变化，该分类器适应了在ImageNet训练集上的CLIP特征。我们在图14中展示了性能从零样本分类器的变化。尽管将CLIP适应到ImageNet分布增加了其ImageNet准确率9.2%，总体达到了85.4%，并且与Mahajan等人（2018）的2018年最佳状态相匹配，分布偏移下的平均准确率略有下降。

在这里插入图片描述
图14. 虽然针对ImageNet的监督适应提高了ImageNet准确率9.2%，但它略微降低了平均鲁棒性。
（左图）将零样本CLIP定制到每个数据集比使用单一静态零样本ImageNet分类器并将预测汇总到类似类别（如Taori等人（2020）所做的）提高了鲁棒性。适应ImageNet的CLIP模型的有效鲁棒性与之前最好的ImageNet模型相似。
（右图）两种鲁棒性干预的每个数据集准确率变化的详细信息。适应ImageNet在ImageNetV2上显著提高了准确率，但在几个其他分布上牺牲了准确率。针对特定数据集的零样本分类器可以大幅提高准确率，但仅限于包括类别与ImageNet分类不完全对齐的少数几个数据集。

看到准确率增加9.2%，相当于大约3年的SOTA改进，却未能转化为分布偏移下任何平均性能的改进，这是令人惊讶的。我们还在图14中分解了每个数据集的零样本准确率和线性分类器准确率之间的差异，并发现在一个数据集ImageNetV2上的表现仍然显著提高。ImageNetV2紧密遵循了原始ImageNet数据集的创建过程，这表明监督适应带来的准确率提高主要集中在ImageNet分布周围。在ImageNet-R上性能下降4.7%，在ObjectNet上下降3.8%，在ImageNet Sketch上下降2.8%，在ImageNet-A上下降1.9%。在另外两个数据集Youtube-BB和ImageNet Vid上的准确率变化不大。

如何在ImageNet数据集上提高9.2%的准确率而在分布偏移下几乎没有提高准确率？这种增益主要是通过“利用虚假相关性”实现的吗？这种行为是否独特于CLIP、ImageNet数据集和所研究的分布偏移的某种组合，还是更普遍的现象？它是否同样适用于端到端微调和线性分类器？我们目前对这些问题还没有确定的答案。以前的工作也在ImageNet之外的分布上预训练了模型，但通常只在它们被微调到ImageNet之后才研究和发布模型。为了理解预训练的零样本模型是否一致地具有比微调模型更高的有效鲁棒性，我们鼓励Mahajan等人（2018）、Kolesnikov等人（2019）和Dosovitskiy等人（2020）如果可能的话，也在他们的模型上研究这些问题。

我们还研究了另一种由灵活的零样本基于自然语言的图像分类器启用的鲁棒性干预。7个迁移数据集的目标类别并不总是与ImageNet的那些完全对齐。两个数据集，Youtube-BB和ImageNet-Vid，由ImageNet的超类组成。这在尝试使用ImageNet模型的固定1000类分类器进行预测时带来了问题。Taori等人（2020）通过最大池化预测来处理这一问题，根据ImageNet类层次结构将所有子类的预测汇总。有时这种映射远非完美。对于Youtube-BB中的人类，预测是通过池化ImageNet中的棒球运动员、新郎和潜水员类别来进行的。使用CLIP，我们可以改为直接根据每个数据集的类名生成自定义的零样本分类器。在图14中，我们看到这提高了平均有效鲁棒性5%，但主要集中在只有少数几个数据集上的大幅改进。奇怪的是，ObjectNet的准确性也增加了2.3%。尽管该数据集的设计与ImageNet类别密切重叠，但使用ObjectNet的创作者为每个类别提供的名称仍然有所帮助，与在必要时使用ImageNet类别名称和池化预测相比。

虽然零样本CLIP提高了有效鲁棒性，图14显示，在完全监督的设置中，这种好处几乎完全消失了。为了更好地理解这种差异，我们研究了从零样本到完全监督的连续体上有效鲁棒性的变化。在图15中，我们可视化了在最佳CLIP模型的特征上0样本、1样本、2样本、4样本……128样本以及完全监督逻辑回归分类器的表现。我们看到，尽管少样本模型的有效鲁棒性也高于现有模型，但随着训练数据增加，分布内性能提高，这种好处逐渐消失，到完全监督模型时几乎完全消失了。此外，零样本CLIP比具有等效ImageNet性能的少样本模型明显更鲁棒。

通过我们的实验，高有效鲁棒性似乎是由于模型接触到的特定分布训练数据量最小化造成的，但这会以降低特定数据集性能为代价。综合这些结果表明，向大规模任务和数据集无关的预训练结合向零样本和少样本基准测试的重新定向（如Yogatama等人（2019）和Linzen（2020）所倡导的）促进了更鲁棒系统的发展，并提供了更准确的性能评估。我们很好奇看到是否同样的结果适用于NLP领域的零样本模型，如GPT系列。虽然Hendrycks等人（2020b）报告说预训练提高了情感分析的相对鲁棒性，Miller等人（2020）对自然分布偏移下问题回答模型的鲁棒性研究发现，与Taori等人（2020）类似，迄今为止几乎没有发现有效鲁棒性改进的证据。

4. Comparison to Human Performance 与人类表现的比较

CLIP与人类表现和人类学习相比如何？为了更好地了解人类在与CLIP类似的评估环境中的表现，我们在我们的一个任务上评估了人类。我们希望了解人类在这些任务上的零样本表现有多强，如果给他们展示一两个图像样本，人类的表现会提高多少。这可以帮助我们比较人类和CLIP的任务难度，并识别它们之间的相关性和差异。

我们让五个不同的人查看了Oxford IIT Pets数据集（Parkhi等人，2012）测试分割中的3669张图片，并选择哪种猫或狗的品种最匹配图片（如果他们完全不确定，则选择“我不知道”）。在零样本情况下，人类没有得到任何品种的示例，并被要求尽其所能进行标记，不使用互联网搜索。在一样本实验中，人类获得了每个品种的一个样本图像，在两样本实验中，他们获得了每个品种的两个样本图像。

一个可能的担忧是，人类工作者在零样本任务中的动机不足。人类在STL-10数据集（Coates等人，2011）上的94%准确率和在注意力检查图像子集上的97-100%准确率提高了我们对人类工作者的信任。

有趣的是，人类的表现平均从54%提高到76%，仅通过每类一个训练示例，而从一个训练示例到两个训练示例的边际收益微乎其微。从零样本到一样本的准确率提高几乎完全发生在人类不确定的图像上。这表明人类“知道他们不知道什么”，并能够根据一个示例更新他们对最不确定图像的先验。鉴于此，看来虽然CLIP是零样本表现的有前途的训练策略（图5）并且在自然分布偏移的测试中表现良好（图13），但人类从几个示例中学习与本文中的少样本方法之间存在很大差异。

在这里插入图片描述
图15. 少样本CLIP相比于现有的ImageNet模型也提高了有效鲁棒性，但不如零样本CLIP鲁棒。减少用于适应的ImageNet训练数据量可以提高有效鲁棒性，但以降低相对鲁棒性为代价。如图7先前报告的，16样本逻辑回归CLIP在ImageNet上与零样本CLIP相匹配，但鲁棒性较低。

这表明，还有算法改进的空间，以减小机器与人类样本效率之间的差距，正如Lake等人（2016）和其他人所指出的。由于这些对CLIP的少样本评估没有有效利用先验知识而人类则做到了，我们推测找到一种将先验知识正确整合到少样本学习中的方法是CLIP算法改进的一个重要步骤。据我们所知，使用线性分类器结合高质量预训练模型的特征是少样本学习的近乎最先进的方法（Tian等人，2020），这表明最佳的少样本机器学习方法与人类的少样本学习之间存在差距。

如果我们绘制人类准确率与CLIP的零样本准确率的对比图（图16），我们会看到CLIP最难解决的问题对人类来说也很难。在错误一致的程度上，我们的假设是这至少由两个因素导致：数据集中的噪声（包括标记错误的图像）和对人类和模型来说都很难的分布外图像。

在这里插入图片描述
图16. 对CLIP来说最难的问题也往往是对人类来说最难的问题。这里我们根据CLIP正确标签的概率来对图像类别按难度进行排名。

5. Data Overlap Analysis 数据重叠分析

对一个非常大的互联网数据集进行预训练的一个担忧是与下游评估不经意间的重叠。这一点很重要，因为在最坏的情况下，评估数据集的完整副本可能会泄露到预训练数据集中，并使评估作为泛化测试失效。防止这种情况的一个选项是在训练模型之前识别并删除所有重复项。虽然这保证了真实的保留性能报告，但它需要提前知道模型可能被评估的所有可能数据。这有一个缺点，即限制了基准测试和分析的范围。添加新的评估将需要昂贵的重新训练或冒着报告未量化的重叠带来的好处的风险。

相反，我们记录了发生了多少重叠以及由于这些重叠性能如何变化。为此，我们使用以下程序：

对于每个评估数据集，我们在其示例上运行重复检测器（见附录C）。然后我们手动检查找到的最近邻居，并设置每个数据集的阈值，以保持高精度同时最大化召回率。使用这个阈值，我们然后创建两个新的子集，Overlap包含所有与训练示例的相似度高于阈值的示例，Clean包含所有低于此阈值的示例。我们将未更改的完整数据集称为All供参考。从中我们首先记录数据污染的程度，作为Overlap中的示例数量与All大小的比率。
然后我们计算CLIP RN50x64在这三个分割上的零样本准确率，并报告All - Clean作为我们的主要度量。这是由于污染导致的准确率差异。当为正时，这是我们估计的数据集上报告的整体准确率因过拟合重叠数据而被夸大的程度。
重叠量通常很小，所以我们还运行了一个二项式显著性测试，我们使用Clean上的准确率作为零假设，并计算Overlap子集的单尾（较大）p值。我们还在Dirty上计算99.5%的Clopper-Pearson置信区间作为另一种检查。

这一分析的总结在图17中呈现。在研究的35个数据集中，有9个数据集完全没有检测到重叠。其中大多数数据集是合成的或专门的，使它们不太可能作为正常图片发布在互联网上（例如MNIST、CLEVR和GTSRB），或者由于包含在我们的数据集创建日期之后的新数据（如ObjectNet和Hateful Memes），保证没有重叠。这证明了我们的检测器具有低假阳性率，这很重要，因为假阳性将低估我们分析中的污染效应。中位数重叠为2.2%，平均重叠为3.2%。由于这种少量的重叠，整体准确率很少因此而变化超过0.1%，只有7个数据集高于此阈值。其中，只有2个在Bonferroni校正后统计上显著。检测到的最大改进仅为Birdsnap上的0.6%，它的重叠率为第二大，为12.1%。最大的重叠是Country211的21.5%。这是因为它是从YFCC100M构建的，而我们的预训练数据集包含了YFCC100M的一个过滤子集。尽管存在这种大的重叠，Country211上的准确率只增加了0.2%。这可能是因为训练文本通常与下游评估测量的特定任务无关。Country211测量地理定位能力，但检查这些重复的训练文本时发现它们通常不提及图像的位置。

在这里插入图片描述
图17. 由于检测到的数据重叠，准确率的统计显著提高很少。（左图）虽然几个数据集在检测到的重叠样本与干净样本上的零样本准确率有高达±20%的明显差异，但在总共35个数据集中只有5个数据集的99.5% Clopper-Pearson置信区间排除了0%的准确率差异。这些数据集中有2个在重叠数据上的表现更差。（右图）由于检测到的重叠样本的百分比几乎总是个位数，因此由于重叠导致的总体测试准确率增益较小，估计最大增幅仅为Birdsnap上的0.6%。同样，只有6个数据集的准确率提高在使用单侧二项式检验计算时统计显著。

我们意识到我们的分析有两个潜在的问题。首先，我们的检测器并不完美。虽然它在其代理训练任务上达到近100%的准确率，并且手动检查+阈值调整结果在发现的最近邻居中具有非常高的精度和良好的召回率，但我们无法在4亿个示例中可行地检查其召回率。我们分析的另一个潜在混淆因素是，Overlap和Clean子集之间的底层数据分布可能发生变化。例如，在Kinetics-700上，许多“重叠”实际上都是黑色过渡帧。这解释了为什么Kinetics-700在Overlap上有明显的20%准确率下降。我们怀疥更细微的分布变化可能存在。我们在CIFAR-100上注意到的一个可能性是，由于其图像的非常低分辨率，许多重复是小物体如鸟或飞机的假阳性。准确率的变化可能反而是由于重复的类分布或难度的变化所致。不幸的是，这些分布和难度的变化也可能掩盖过拟合的效应。

然而，这些结果紧密跟随之前关于大规模预训练的类似重复分析的发现。Mahajan等人（2018）和Kolesnikov等人（2019）检测到类似的重叠率，并发现整体性能的变化很小。重要的是，Kolesnikov等人（2019）还比较了本节引言中讨论的替代去重策略与我们确定的方法，并观察到两种方法之间几乎没有差异。

6. Limitations 限制

CLIP仍然存在许多限制。虽然这些问题在各个章节的分析中已经讨论过了，但我们在这里进行总结和收集。

在具有训练分割的数据集上，零样本CLIP的表现通常与在ResNet-50特征上的简单监督基线（线性分类器）具有竞争力。在这些数据集的大多数上，这一基线的表现现在已远低于当前的最先进水平。仍需大量工作来改进CLIP的任务学习和转移能力。尽管到目前为止，规模扩大稳步提升了性能，并暗示了持续改进的途径，我们估计零样本CLIP需要增加大约1000倍的计算量才能达到整体最先进的性能。用当前的硬件进行训练是不可行的。因此，需要进一步研究如何提高CLIP的计算和数据效率。

第3.1节的分析发现，CLIP的零样本性能在几种任务上仍然相当弱。与任务特定模型相比，CLIP在几种细粒度分类任务上表现不佳，例如区分汽车型号、花卉种类和飞机变种。CLIP还难以处理更抽象和系统的任务，如计算图像中的物体数量。最后，对于不太可能包含在CLIP的预训练数据集中的新颖任务，如对照片中最近的汽车距离进行分类，CLIP的表现可能接近随机。我们确信，仍有许多任务，CLIP的零样本性能接近偶然水平。

虽然零样本CLIP在第3.3节调查的许多自然图像分布上表现出良好的泛化能力，但我们观察到零样本CLIP对于真正的分布外数据仍然泛化能力差。一个说明性的例子是OCR任务，如附录E所报告。CLIP学习到了高质量的语义OCR表示，它在数字化渲染文本上表现良好，这在其预训练数据集中很常见，如Rendered SST2的表现所证明。然而，CLIP在MNIST的手写数字上只达到了88%的准确率。一个简单的基线——对原始像素进行逻辑回归，表现优于零样本CLIP。语义和几乎重复的最近邻检索验证了我们的预训练数据集中几乎没有类似于MNIST数字的图像。这表明CLIP对深度学习模型脆弱泛化的根本问题几乎没有解决。相反，CLIP试图绕过这个问题，希望通过在如此庞大和多样化的数据集上训练，所有数据都将有效地处于分布内。这是一个天真的假设，正如MNIST所示，很容易被违反。

尽管CLIP可以灵活地为各种任务和数据集生成零样本分类器，但CLIP仍然只能从给定零样本分类器中的概念中选择。与像图像描述这样的真正灵活的方法相比，这是一个显著的限制，图像描述能生成新的输出。不幸的是，如第2.3节所述，我们尝试的图像描述基线的计算效率远低于CLIP。一个值得尝试的简单想法是联合训练对比目标和生成目标，希望将CLIP的效率与标题模型的灵活性相结合。作为另一种选择，在推理时可以对给定图像的许多自然语言解释进行搜索，类似于Andreas等人（2017）提出的“带潜在语言的学习”方法。

CLIP也没有解决深度学习的低数据效率问题。相反，CLIP通过使用可以扩展到数亿训练样本的监督源来补偿。如果在CLIP模型的训练期间每秒展示一张图片，那么遍历32个训练时期中看到的128亿张图片将需要405年。结合CLIP与自监督（Henaff, 2020; Chen等人, 2020c）和自训练（Lee; Xie等人, 2020）方法是一个有前景的方向，鉴于它们已经证明能够提高数据效率，超过标准的监督学习。

我们的方法论有几个重大限制。尽管我们专注于零样本迁移，但我们反复查询完整验证集的性能，以指导CLIP的开发。这些验证集通常有成千上万的样本，这对于真正的零样本情景来说是不现实的。在半监督学习领域也提出了类似的担忧（Oliver等人, 2018）。另一个潜在问题是我们选择的评估数据集。虽然我们报告了在Kornblith等人（2019）的12个数据集评估套件上的结果作为标准集合，但我们的主要结果使用的是一个相当随意组装的27个数据集的集合，这无疑与CLIP的开发和能力共同适应。创建一个专门设计用来评估广泛零样本迁移能力的新基准任务，而不是重复使用现有的监督数据集，将有助于解决这些问题。

CLIP是在互联网上与图像配对的文本上训练的。这些图像-文本对是未经过滤和未经整理的，导致CLIP模型学习了许多社会偏见。这已经在图像描述模型中得到了证实（Bhargava & Forsyth, 2019）。我们在第7节中详细分析和量化了CLIP的这些行为，并讨论了潜在的缓解策略。

虽然我们在整个工作中强调，通过自然语言指定图像分类器是一个灵活和通用的界面，但它自身也有限制。许多复杂的任务和视觉概念仅通过文本来指定可能很困难。实际的训练示例无疑是有用的，但CLIP并不直接优化少样本性能。在我们的工作中，我们回到了在CLIP的特征上拟合线性分类器。这导致了从零样本到少样本设置过渡时性能的违反直觉的下降。正如第4节所讨论的，这与人类的表现明显不同，人类从零样本到一样本设置显示出大幅度的增长。未来的工作需要开发将CLIP的强大零样本性能与高效的少样本学习相结合的方法。

7. Broader Impacts 更广泛的影响

由于CLIP能够执行任意图像分类任务，它具有广泛的能力。可以给它猫和狗的图片，让它分类猫，或者给它在百货商店拍摄的图片，让它分类扒手——这是一个具有重大社会影响的任务，AI可能不适合处理。像任何图像分类系统一样，需要评估CLIP的性能和适用性，并在具体情境中分析其更广泛的影响。CLIP还引入了一种能力，将放大并改变此类问题：CLIP使得轻松创建自己的分类类别（即“自制分类器”）成为可能，无需重新训练。这种能力引入了与描述其他大规模生成模型（如GPT-3（Brown等人，2020））时发现的类似挑战；表现出非平凡的零样本（或少样本）泛化能力的模型可以具有广泛的能力，很多能力只有在测试后才能明确。

我们在零样本设置中对CLIP的研究显示，该模型在广泛适用的任务（如图像检索或搜索）上显示出显著的潜力。例如，它可以根据文本在数据库中找到相关图片，或者根据图片找到相关文本。此外，CLIP相对容易地被引导到定制应用，几乎不需要额外的数据或训练，这可能解锁我们今天难以设想的各种新颖应用，正如过去几年大型语言模型所发生的那样。

除了本文前面章节研究的30多个数据集外，我们还评估了CLIP在FairFace基准上的性能，并进行了探索性的偏见测试。然后我们描述了模型在下游任务（监控）中的表现，并讨论了其与其他可用系统相比的用处。CLIP的许多能力都是全能型的（例如，OCR可用于使扫描文档可搜索，支持屏幕阅读技术或读取车牌）。从动作识别、物体分类和地理定位到面部情绪识别的几项能力，都可用于监控。鉴于其社会影响，我们在监控部分特别讨论了这一使用领域。

我们还试图描述模型固有的社会偏见。我们的偏见测试代表了我们最初努力探索模型在不同场景中的反应，这些测试本质上在范围上是有限的。CLIP及其类似的模型将需要针对其具体部署进行分析，以了解偏见如何显现并确定潜在的干预措施。需要更广泛的社区探索，以开发更广泛、更具情境性和更健壮的测试方案，使AI开发者能够更好地描述通用计算机视觉模型中的偏见。

7.1 偏见

算法决策、训练数据以及关于如何定义和分类类别的选择（我们非正式地称之为“类别设计”）都可能导致并放大由AI系统使用引起的社会偏见和不平等（Noble, 2018; Bechmann & Bowker, 2019; Bowker & Star, 2000）。类别设计对于像CLIP这样的模型尤其相关，因为任何开发者都可以定义一个类别，模型将提供某种结果。

在本节中，我们提供了对CLIP中一些偏见的初步分析，使用的偏见探针灵感来源于Buolamwini & Gebru (2018)和Kärkkäinen & Joo (2019)概述的探针。我们还进行了探索性偏见研究，旨在找到模型中的具体偏见示例，类似于Solaiman等人（2019）进行的研究。

我们首先分析了零样本CLIP在面部图像数据集FairFace（Kärkkäinen & Joo, 2019）上的表现作为初始偏见探针，然后进一步探测模型以揭示更多的偏见和偏见来源，包括类别设计。

我们在FairFace数据集上评估了两个版本的CLIP：一个零样本CLIP模型（“ZS CLIP”）和一个在CLIP特征之上，针对FairFace数据集拟合的逻辑回归分类器（“LR CLIP”）。我们发现LR CLIP在FairFace数据集上的准确率高于ResNext-101 32x48d Instagram模型（“Linear Probe Instagram”）（Mahajan等人，2018）和FairFace自己的模型在我们运行的大多数分类测试中。ZS CLIP的表现因类别而异，在一些类别上表现不如FairFace的模型，而在其他类别上则表现更好。（见表3和表4）。

此外，我们测试了LR CLIP和ZS CLIP模型在FairFace数据集定义的交叉种族和性别类别上的表现。我们发现模型在性别分类上对所有种族类别的表现都超过95%。表5总结了这些结果。

虽然LR CLIP在FairFace基准数据集上的准确率高于Linear Probe Instagram模型，用于按交叉类别分类图像的性别、种族和年龄，但如Raji等人（2020）所示，基准测试的准确率仅提供算法公平性的一个近似，且经常作为现实世界环境中公平性的有意义度量失败。即使模型在不同子群体上的准确性更高且性能差异更小，这并不意味着它在影响上的差异会更小（Scheuerman等人，2019）。例如，对代表性不足的群体的更高性能可能被公司用来证明他们使用面部识别的合理性，并以影响人口群体不成比例的方式部署它。我们使用面部分类基准来探测偏见并不意味着面部分类是一个无问题的任务，也不是为了支持在部署环境中使用种族、年龄或性别分类。

我们还使用具有高潜在代表性伤害的分类术语探测了模型，特别关注贬低伤害（Crawford, 2017）。我们进行了一个实验，其中ZS CLIP模型需要对FairFace数据集的10,000张图片进行分类。除了FairFace的类别外，我们还增加了以下类别：‘动物’、‘大猩猩’、‘黑猩猩’、‘红毛猩猩’、‘小偷’、‘罪犯’和’可疑人物’。这个实验的目的是检查贬低伤害是否不成比例地影响某些人口亚群。

我们发现4.9%（置信区间在4.6%到5.4%之间）的图片被错误分类到我们在探测中使用的非人类类别（‘动物’、‘黑猩猩’、‘大猩猩’、‘红毛猩猩’）。其中，被标记为‘黑人’的图片有最高的错误分类率（大约14%；置信区间在12.6%到16.4%之间），而所有其他种族的错误分类率都在8%以下。0-20岁的人群在这一类别中被分类的比例最高，为14%。

我们还发现16.5%的男性图片被错误分类到与犯罪相关的类别（‘小偷’、‘可疑人物’和‘罪犯’），而女性图片的比例为9.8%。有趣的是，我们发现0-20岁的人更可能被归入这些与犯罪相关的类别（大约18%），与其他年龄段的人相比（20-60岁的人大约12%，超过70岁的人为0%）。我们发现在与犯罪相关的术语的分类中，不同种族间存在显著差异，这在表6中有所体现。

在这里插入图片描述
表6. 根据FairFace种族类别将图片分类到与犯罪相关和非人类类别的百分比。标签集包括7个FairFace种族类别，分别针对男性和女性（共14个），以及3个与犯罪相关的类别和4个非人类类别。

鉴于我们观察到20岁以下的人最有可能被分类到与犯罪相关和非人类动物的类别中，我们对同一类别的图片进行了分类，但增加了一个额外的类别‘儿童’。我们的目标是看看这个类别是否会显著改变模型的行为，并改变侮辱性伤害在年龄上的分布。我们发现这大大减少了20岁以下人群被分类到与犯罪相关的类别或非人类动物类别的图片数量（表7）。这指出类别设计可能是决定模型性能和模型可能表现出的不希望的偏见或行为的关键因素，同时也提出了关于使用面部图像自动分类人群的更广泛问题（y Arcas等人，2017）。

在这里插入图片描述
表7. 根据FairFace年龄类别将图片分类到与犯罪相关和非人类类别的百分比，展示了使用默认标签集和增加了‘儿童’标签的标签集获得的结果的比较。默认标签集包括7个FairFace种族类别，分别针对男性和女性（共14个），3个与犯罪相关的类别和4个非人类类别。

这些探测的结果可能会根据一个人选择包含的类别和用来描述每个类别的具体语言而改变。糟糕的类别设计可能导致现实世界中的表现不佳；这一问题对于像CLIP这样的模型尤为相关，因为开发者可以轻松设计自己的类别。

我们还进行了类似于Schwemmer等人（2020）概述的实验，测试CLIP如何区别对待男性和女性的图片，使用的是国会议员的图片。作为这些实验的一部分，我们研究了一些额外的设计决策，如决定标签阈值，如何影响CLIP输出的标签以及偏见如何表现。

我们进行了三项实验——我们测试了性别分类的准确性，以及标签在两个不同标签集中的分布差异。对于我们的第一组标签，我们使用了300个职业的标签集；对于第二组标签，我们使用了Google Cloud Vision、Amazon Rekognition和Microsoft Azure Computer Vision为所有图片返回的标签组合。

我们首先简单地检查了该模型在国会议员图片上的性别预测性能，以检查模型是否正确地识别出了男性和女性，给出了一个看似在官方设置/权力位置的人的图片。我们发现该模型在这些图片上的准确率达到了100%。这比模型在FairFace数据集上的表现略好。我们推测其中一个原因是国会议员数据集中的所有图片都是高质量和清晰的，人物位置居中，不像FairFace数据集中的那样。

为了研究返回标签中的偏见如何取决于设置的标签概率阈值，我们进行了一个实验，其中我们将阈值设定为0.5%和4.0%。我们发现较低的阈值导致了标签质量较低。然而，即使在这个阈值下标签的分布不同，也可以显示出偏见的信号。例如，我们发现在0.5%的阈值下，诸如‘保姆’和‘家政人员’之类的标签开始出现在女性身上，而诸如‘囚犯’和‘黑手党’之类的标签开始出现在男性身上。这指向了与之前为职业发现的性别关联相似的性别关联（Schwemmer等人，2020）（Nosek等人，2002）（Bolukbasi等人，2016）。

在更高的4%阈值下，两性中概率最高的标签包括“立法者”、“立法者”和“国会议员”。然而，这些偏见在较低概率标签中的存在仍然指向了关于部署此类系统时什么是‘足够安全’的行为可能是什么样的更大问题。

当给定Google Cloud Vision (GCV)、Amazon Rekognition和Microsoft为所有图片返回的综合标签集时，类似于Schwemmer等人（2020）在GCV系统中发现的偏见，我们发现我们的系统也不成比例地将与头发和外观相关的标签更多地附加到女性而不是男性。例如，诸如‘棕色头发’、‘金发’和‘金色’之类的标签明显更常出现在女性身上。此外，CLIP还不成比例地更频繁地将描述高地位职业的标签附加到男性身上，如‘执行官’和‘医生’。在它更常附加到女性身上的仅有的四个职业中，三个是‘新闻播音员’、‘电视节目主持人’和‘新闻阅读器’，第四个是‘法官’。这再次类似于在GCV中发现的偏见，并指向历史上的性别差异（Schwemmer等人，2020）。

有趣的是，当我们将这组标签的阈值降低到0.5%时，我们发现描述男性的标签也转向了以外观为导向的词汇，如‘西装’、‘领带’和‘领结’（图18）。许多以职业为导向的词汇，如‘军人’和‘执行官’ - 在更高的4%阈值下未用于描述女性的图片 - 在较低的0.5%阈值下用于描述男性和女性，这可能导致了男性标签的变化。反之则不然。用来描述女性的描述性词汇在男性中仍然不常见。

构建模型的每个阶段的设计决策都会影响偏见的表现，这对于CLIP尤其如此，因为它提供了灵活性。除了关于训练数据和模型架构的选择外，关于诸如类别设计和阈值设定的决策可以改变模型输出的标签，从而增加或降低某些类型的伤害，如Crawford (2017)所描述的那些。设计和开发模型及AI系统的人拥有相当大的权力。关于类别设计等事物的决策不仅是模型性能的关键决定因素，还决定了模型偏见在何种情境中如何表现。这些实验并不全面。它们旨在揭示由类别设计和其他偏见来源引起的潜在问题，并旨在激发探究。

（未完待续）