CLIP论文阅读

CLIP论文阅读

Learning Transferable Visual Models From Natural Language Supervision

CLIP如何做zero-shot的推理。

CLIP做视频检索

最先进的计算机视觉系统被训练来预测预定对象类别的固定集合。 这种受限制的监督形式限制了它们的一般性和可用性,因为需要额外的标记数据来指定任何其他视觉概念。如果我们需要检测别的类别我们还需要重新改变数据集,

1.方法

用自然语言的监督信号来训练一个视觉模型。

  1. 你不需要再去标注数据集,你现在只需要去下载文字和图片的配对 \textcolor{red}{你不需要再去标注数据集,你现在只需要去下载文字和图片的配对} 你不需要再去标注数据集,你现在只需要去下载文字和图片的配对
  2. 常见的图片文字配对数据集: M S − C O C O ( L i n e t a l . , 2014 ) , V i s u a l G e n o m e ( K r i s h n a e t a l . , 2017 ) , a n d Y F C C 100 M ( T h o m e e e t a l . , 2016 ) . \textcolor{red}{MS-COCO (Lin et al., 2014), Visual Genome (Krishna et al., 2017), and YFCC100M (Thomee et al., 2016).} MSCOCO(Linetal.,2014),VisualGenome(Krishnaetal.,2017),andYFCC100M(Thomeeetal.,2016).

​ 最后这些数据集都不能达到作者想要的一鸣惊人的效果,由于以上数据集不够大,作者自己收集数据集。

我们发现训练效率是成功扩展自然语言监督的关键,并基于此度量选择了最终的预训练方法。

为什么要使用对比学习的方法?

注意到这些发现,我们探索训练一个系统来解决潜在的更容易的代理任务,即只预测哪个文本作为一个整体与哪个图像配对,而不是该文本的确切单词。

如何去很多个GPU上训练:How to Train Really Large Models on Many GPUs?

在从模型中提取的表示上拟合线性分类器并测量其在各种数据集上的性能是一种常见的方法。 linear probe

另一种方法是测量模型端到端微调的性能。

创新想法

一个值得尝试的简单想法是将对比和生成目标联合训练,希望将剪辑的效率和标题模型的灵活性结合起来。 \textcolor{green}{一个值得尝试的简单想法是将对比和生成目标联合训练,希望将剪辑的效率和标题模型的灵活性结合起来。 } 一个值得尝试的简单想法是将对比和生成目标联合训练,希望将剪辑的效率和标题模型的灵活性结合起来。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值