StableRep - Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners

StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners

论文:https://arxiv.org/abs/2306.00984

TL; DR:本文提出 StableRep,使用 Stable Diffusion 来根据文本 prompt 生成图片数据,来自同一文本 prompt 的多张图片互为正样本,进行多正例的对比学习训练,训练视觉表征模型。相比于 SimCLR、CLIP、Supervised 类的方法,StableRep 的监督信号的粒度更合理。实验表明,StableRep 仅使用合成图像,超过了使用真实图像的 SimCLR、CLIP 等模型。

方法

整体方法与之前介绍过的 SynCLR 是类似的,只是本文的 caption 还不是机造的,而是直接从 CC3M 等数据集中拿的。重复部分不再介绍。

SynCLR 中的多正例对比的方法是本文首先提出的,其示意图如下。SimCLR 这类做实例判别的对比方法是对比同一张图片的不同数据增强结果,CLIP (从视觉表征预训练的角度来说)相当于是将图片对应的文本描述作为监督信号,他们每个图片在 batch 内都只有一个正样本对。而本文提出的多正例对比学习的方法则每张图片有多个正样本对,每张来自同一个 prompt 的图片都是正样本,它们语义内容相同,细节略有差异。无疑 StableRep 的监督信号的粒度相比于 SimCLR、CLIP、Supervised 的方法都更合适。这其实是得益于机造数据的可控性,根据一个语义内容(prompt),想生成几张图片就生成几张,自然可以组成语义相同的多正例对比学习样本。

在这里插入图片描述

总结

这篇 StableRep 相当于是 SynCLR 的前身。首先提出了使用同一个 caption 生成的多张图片,作为对比学习中的多正例的方式。即 Multi-Positive Contrastive Learning。相比于 SynCLR,区别主要是 StableRep 的 caption 是现成的,从 CC3M 等数据集中直接拿的。而 SynCLR 的机造数据思想贯彻得更彻底,连 caption 也是使用 LLM 根据类别词表生成的。

关于这种机造数据的好处笔者的观点在 SynCLR 那篇中已经说过,是生成数据的高质量和可控性,结合多正例的对比学习方式,相比自监督和有监督学习,会得到更合理的监督信号的粒度。

  • 7
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值