CLIP论文阅读

最新推荐文章于 2024-04-17 14:11:49 发布

要加油GW

最新推荐文章于 2024-04-17 14:11:49 发布

阅读量758

点赞数

分类专栏：论文阅读文章标签：计算机视觉深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44627093/article/details/126289031

版权

论文阅读专栏收录该内容

4 篇文章 0 订阅

订阅专栏

CLIP论文阅读

Learning Transferable Visual Models From Natural Language Supervision

CLIP如何做zero-shot的推理。

CLIP做视频检索

最先进的计算机视觉系统被训练来预测预定对象类别的固定集合。这种受限制的监督形式限制了它们的一般性和可用性，因为需要额外的标记数据来指定任何其他视觉概念。如果我们需要检测别的类别我们还需要重新改变数据集，

1.方法

用自然语言的监督信号来训练一个视觉模型。

$\textcolor{red}{你不需要再去标注数据集，你现在只需要去下载文字和图片的配对}$
常见的图片文字配对数据集： $\textcolor{red}{MS-COCO (Lin et al., 2014), Visual Genome (Krishna et al., 2017), and YFCC100M (Thomee et al., 2016).}$

最后这些数据集都不能达到作者想要的一鸣惊人的效果，由于以上数据集不够大，作者自己收集数据集。

我们发现训练效率是成功扩展自然语言监督的关键，并基于此度量选择了最终的预训练方法。

为什么要使用对比学习的方法？

注意到这些发现，我们探索训练一个系统来解决潜在的更容易的代理任务，即只预测哪个文本作为一个整体与哪个图像配对，而不是该文本的确切单词。

如何去很多个GPU上训练：How to Train Really Large Models on Many GPUs?

在从模型中提取的表示上拟合线性分类器并测量其在各种数据集上的性能是一种常见的方法。 linear probe

另一种方法是测量模型端到端微调的性能。

创新想法

$\textcolor{green}{一个值得尝试的简单想法是将对比和生成目标联合训练，希望将剪辑的效率和标题模型的灵活性结合起来。 }$

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CLIP论文阅读

CLIP如何做zero-shot的推理。CLIP做视频检索最先进的计算机视觉系统被训练来预测预定对象类别的固定集合。这种受限制的监督形式限制了它们的一般性和可用性，因为需要额外的标记数据来指定任何其他视觉概念。如果我们需要检测别的类别我们还需要重新改变数据集，...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。