CLIP:为什么加一个文本前缀it is a photo of，模型表现会更好?

最新推荐文章于 2024-08-26 10:41:03 发布

datamore

最新推荐文章于 2024-08-26 10:41:03 发布

阅读量239

点赞数

分类专栏：其他文章标签：学习人工智能计算机视觉文心一言

本文链接：https://blog.csdn.net/weixin_45827311/article/details/132757047

版权

其他专栏收录该内容

8 篇文章 0 订阅

订阅专栏

为什么加一个文本前缀it is a photo of，模型表现会更好，是因为这是一种prompt engineering的手段

一方面能提供一定上下文信息，如强调送入语言模型的文本信息是描述图片内容的
另一方面是clip预训练图文对中文本信息通常是一句话，而不是一个词。通过加前缀这个处理，缩小了测试和训练的gap

这是clip原文中描述这一问题的片段：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

datamore

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
CLIP:为什么加一个文本前缀it is a photo of，模型表现会更好?

为什么加一个文本前缀it is a photo of， CLIP模型表现会更好，是因为这是一种
复制链接

扫一扫

专栏目录

手把手写深度学习(18)：finetune微调CLIP模型的原理、代码、调参技巧

沉迷单车的追风少年

09-07

6794

在前面的博客《手把手写深度学习(16)：用CILP预训练模型搭建图文检索系统/以图搜图/关键词检索系统》中介绍了如何在图文检索、以图搜图、关键词检索等任务中使用CLIP。这篇博客重点讲解代码和调参技巧。

CLIP：连接文本和图像的神经网络

梁瑛平的博客

10-14

1308

Learning Transferable Visual Models From Natural Language Supervision论文地址：代码地址：主要工作：具体实现：实验结果：论文地址： https://arxiv.org/abs/2103.00020 代码地址： https://github.com/OpenAI/CLIP 主要工作：作者证明了简单的预训练任务，预测哪个图像的标题是一种有效的和可伸缩的方式，在从互联网收集的4亿（图像-文本对）数据集上从头学习 SOTA 的图像表示。经过预训

1 条评论您还未登录，请先登录后发表或查看评论

clip预训练模型综述

热门推荐

zcyzcyjava的博客

08-27

1万+

CLIP是一个预训练模型，就像BERT、GPT、ViT等预训练模型一样。首先使用大量无标签数据训练这些模型，然后训练好的模型就能实现，输入一段文本（或者一张图像），输出文本（图像）的向量表示。CLIP和BERT、GPT、ViT的区别在于，CLIP是多模态的，包含图像处理以及文本处理两个方面内容，而BERT、GPT是单文本模态的，ViT是单图像模态的。.........

CLIP系列：CLIP：沟通文本和图像的桥梁

yumaomi的博客

10-25

512

CLIP沟通文本和图像的桥梁。SOTA的视觉任务模型需要固定的监督数据对，比如-大象，-兔子。这种方式在特定数据集上能够拥有很好的性能，但是在其他未知类别上的性能就会急剧下降。这种监督形式限制了模型的通用性，因为需要额外的数据来重新训练模型。一个识别和的模型并不能识别和。传统的图像任务都是使用one-hot编码进行，每一类都有其独特的数字标签，比如背景为0，是1，是2，计算机只需要将像素分类成0,1,2。CLIP则是直接从图像的文本描述中进行学习，“a photo of。

[ICML 2021] CLIP: Learning Transferable Visual Models From Natural Language Supervision

连理o的博客

02-19

3371

[ICML 2021] CLIP: Learning Transferable Visual Models From Natural Language Supervision

清华&MBZUAI&CMU&牛津提出DenseCLIP，用上下文感知的提示进行语言引导密集预测！代码已开源！...

我爱计算机视觉

12-15

3114

关注公众号，发现CV技术之美▊写在前面最近的研究表明，使用对比图像文本对进行大规模的预训练可能是从自然语言监督中学习高质量视觉表示的有前途的方法。得益于更广泛的监督来源，这一新范式在下游...

多模态预训练CLIP模型的强大为例

fareise的博客

05-08

3299

微信公众号“圆圆的算法笔记”，持续更新NLP、CV、搜推广干货笔记和业内前沿工作解读~ 后台回复“交流”加入“圆圆的算法笔记”交流群；回复“时间序列“、”多模态“、”迁移学习“、”NLP“等获取各个领域干货算法笔记~ 最近在看ACL 2022论文的时候，发现了一篇很有意思的文章：CLIP Models are Few-shot Learners。这个文章标题马上让人联想起GPT3那篇文章Language Models are Few-Shot Learners。CLIP自2021年被提出以来一直是多模.

多模态视觉大模型(2): 常用模型介绍（CLIP和LLAVA）

@bangbang的博客

04-28

1539

Loss使用的是交叉熵来定义，通过Loss来约束使得相同图像和文本对，他们的距离要足够近；其他不匹配的要尽可能远。我们可以换个视角来解决该问题，将它看做两个任务。第一个任务是针对每张图像我需要分类对，需要将它正确分类为对应的类别id;针对每个文本，我们也希望它也能够正确的分类到对应的类别id。所以可以通过两个交叉熵来实现，一个是文本分类的交叉熵，一个是图像分类的交叉熵，通过转置来实现。然后将两个交叉熵的损失加在一起就可以了，# 主函数# 加载数据集# 获取一个小批量的图像和标签。

『NLP学习笔记』CLIP文本图像自监督学习解读

AI新视界

03-17

2372

本文提出CLIP，Contrastive Language–Image Pre-training，用4亿对来自网络的图文数据集，将文本作为图像标签，进行训练。进行下游任务时，只需要提供和图上的concepts对应的文本描述，就可以进行zero-shot transfer。模型在30个CV数据集上做了实验，实验任务包括OCR， action recognition in videos, geo-localization, and many types of fine-grained object class

数据结构（邓俊辉）学习笔记】优先级队列 08——左式堆：结构

weixin_44399845的博客

08-23

997

学习左式堆的结构

day38-栈和队列理论学习【python】

canGfly的博客

08-21

484

栈（Stack）: 使用 Python 的list实现。主要操作有pushpoppeek, 和is_empty。队列（Queue）: 使用实现。主要操作有enqueuedequeuepeek, 和is_empty。这两种数据结构可以通过这些操作灵活地处理和存储数据。在实际应用中，选择使用哪种数据结构取决于具体的需求和场景。ok了，就到这里叭～～～。

Python3学习（一）

qq_54161774的博客

08-21

1289

python的基础语法

vue.js学习步骤

m0_63178019的博客

08-23

734

Vue.js 从一个简单的实验性项目成长为一个功能强大、社区活跃的前端框架，其发展历程展示了它对前端开发的持续创新和改进。通过引入先进的功能和不断扩展的生态系统，Vue.js 为开发者提供了一个高效、灵活的工具，满足了不同规模和复杂度应用的需求。

Golang学习笔记-Golang中的锁

qq_24428851的博客

08-25

913

Go标准库的中的sync.Cond是一个条件变量，它可以让一系列的goroutine都在满足特定条件下时候被唤醒，每一个 sync.Cond 结构体在初始化时都需要传入一个互斥锁，我们可以通过下面的例子了解它的使用方法。因为请求的哈希在业务上一般表示相同的请求，所以上述代码使用它作为请求的键。这个是Go语言的扩展包中提供的另外一个信号量，它能够在一个服务中抑制对下游的多次重复请求，比如在redis的缓存雪崩中，能够限制对同一个 Key 的多次重复请求，减少对下游的瞬时流量。上述两个加起来，只占用8个字节。

学习大数据DAY44 帆软 report 配置

shh2000424的博客

08-23

1100

署，并设置服务器开机自启动，并请实操演示得分点（完成得满分，未完成得。服务器容器的端口修改，并将内存调大，请实操演示得分点（完成得。2 部署 tomcat web 服务。1 安装帆软 report v11。配置环境变量推荐用自己的名字。等几秒查看下进程或者端口。3 显示帆软报表平台。分服务器开机自启动。初始化设置下用户和密码。在它的第二行上面添加。

快速学习“堆“排序（C语言数据结构）

m0_75235246的博客

08-26

319

堆的实现其实并不难，难的是要用堆实现排序，也就是堆的运用。下面需要探究一下堆的排序是怎样的。如何利用堆进行升序或者降序的排序。

先从路径优化开始学习FastPlanner之B样条曲线平滑路径（一）：从拉格朗日插值到B样条曲线

qq_51013517的博客

08-25

850

B样条学习整理，易错点和关键点。我会列出学习他人的博客，但我不涉及具体推导，原理讲解，旨在于理解必须概念后写代码出效果和使用。

Python 爬虫爬取豆瓣电影列表信息，爬虫的原理，应用领域介绍学习