EasyNLP 带你玩转 CLIP 图文检索

阿里云云栖号

于 2022-06-20 14:59:47 发布

阅读量1.5k

点赞数 2

文章标签：人工智能机器学习深度学习云计算阿里云

本文链接：https://blog.csdn.net/yunqiinsight/article/details/125373017

版权

导读

随着自媒体的不断发展，多种模态数据例如图像、文本、语音、视频等不断增长，创造了互联网上丰富多彩的世界。为了准确建模用户的多模态内容，跨模态检索是跨模态理解的重要任务，采用一种模态的数据作为数据，检索另一种模态的数据。其中，图文检索是跨模态检索的一种主流任务，广泛应用于各种网络应用中，其难点在于跨模态的表示鸿沟（Representation Gap）。具体来说，文本和图像的数据处于不同的向量空间，无法直接去度量他们的相似性。OpenAI提出了CLIP（Contrastive Language-Image Pre-training）模型，在大规模图文数据集上进行了对比学习训练，在多个数据集上的准确度表明，CLIP优于各种基于ImageNet的模型，也具有良好的零样本学习（Zero-shot Learning）能力。

EasyNLP是阿里云机器学习PAI 团队基于 PyTorch 开发的易用且丰富的中文NLP算法框架，支持常用的中文预训练模型和大模型落地技术，并且提供了从训练到部署的一站式 NLP 开发体验。EasyNLP 提供了简洁的接口供用户开发 NLP 模型，包括NLP应用 AppZoo 和预训练 ModelZoo，同时提供技术帮助用户高效的落地超大预训练模型到业务。由于跨模态理解需求的不断增加，EasyNLP也将支持各种跨模态模型，特别是中文领域的跨模态模型，推向开源社区，希望能够服务更多的 NLP 和多模态算法开发者和研究者，也希望和社区一起推动 NLP /多模态技术的发展和模型落地。

本文简要介绍CLIP的技术解读，以及如何在EasyNLP框架中玩转CLIP模型。

CLIP模型详解

CLIP的模型结构相对比较简单，体现了“大道至简”的设计原则，其模型框架图如下图所示：

为了建立图像和文本的关联性，CLIP首先分别构建了图像和文本的Encoder，分别对图像和文本进行特征抽取。对于图像而言，CLIP使用的Backbone可以是经典的ResNet系列模型，也可以是更先进的Transfomer类模型，例如VIT等；对于文本，CLIP一般使用BERT类模型进行特征抽取，也包括RoBERTa等。在特征抽取之后，CLIP分别对提取的向量进行Normalization，从而可以直接进行内积相似度计算。在模型Loss Function层面，由于图像和文本向量都进行了Normalization，我们直接使用相乘来计算余弦距离，使得同一图文对的结果趋近于1，不同图文对的结果趋近于0；并且使用对比学习损失InfoNCE进行损失计算。

当模型预训练结束后，我们可以直接使用CLIP进行图文的检索，因为CLIP已经将图文的表示映射到同一个向量空间。CLIP的另一个优势在于可以进行Zero-shot Classification。如下图所示，我们设计输入文本“A photo of a {object}.”，并且使用目标图像作为输出。如果文本“A photo of a dog.”于当前图像最匹配（余弦相似度最高），我们可以说明，当前图像的物体是“dog”。由此可见，预训练后的CLIP模型可以直接用于图像分类，而不需要额外的训练。