StableRep - Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners

最新推荐文章于 2024-09-04 14:24:09 发布

Adenialzz

最新推荐文章于 2024-09-04 14:24:09 发布

阅读量463

点赞数 7

文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/weixin_44966641/article/details/135601564

版权

本文介绍了一种新的方法StableRep，利用文本提示生成多张图片进行多正例对比学习，改进了传统方法如SimCLR和CLIP的监督信号粒度。实验表明，仅使用合成图像，StableRep在性能上超越了使用真实图像的模型。

摘要由CSDN通过智能技术生成

StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners

论文：https://arxiv.org/abs/2306.00984

TL; DR：本文提出 StableRep，使用 Stable Diffusion 来根据文本 prompt 生成图片数据，来自同一文本 prompt 的多张图片互为正样本，进行多正例的对比学习训练，训练视觉表征模型。相比于 SimCLR、CLIP、Supervised 类的方法，StableRep 的监督信号的粒度更合理。实验表明，StableRep 仅使用合成图像，超过了使用真实图像的 SimCLR、CLIP 等模型。

方法

整体方法与之前介绍过的 SynCLR 是类似的，只是本文的 caption 还不是机造的，而是直接从 CC3M 等数据集中拿的。重复部分不再介绍。

SynCLR 中的多正例对比的方法是本文首先提出的，其示意图如下。SimCLR 这类做实例判别的对比方法是对比同一张图片的不同数据增强结果，CLIP （从视觉表征预训练的角度来说）相当于是将图片对应的文本描述作为监督信号，他们每个图片在 batch 内都只有一个正样本对。而本文提出的多正例对比学习的方法则每张图片有多个正样本对，每张来自同一个 prompt 的图片都是正样本，它们语义内容相同，细节略有差异。无疑 StableRep 的监督信号的粒度相比于 SimCLR、CLIP、Supervised 的方法都更合适。这其实是得益于机造数据的可控性，根据一个语义内容（prompt），想生成几张图片就生成几张，自然可以组成语义相同的多正例对比学习样本。

在这里插入图片描述

总结

这篇 StableRep 相当于是 SynCLR 的前身。首先提出了使用同一个 caption 生成的多张图片，作为对比学习中的多正例的方式。即 Multi-Positive Contrastive Learning。相比于 SynCLR，区别主要是 StableRep 的 caption 是现成的，从 CC3M 等数据集中直接拿的。而 SynCLR 的机造数据思想贯彻得更彻底，连 caption 也是使用 LLM 根据类别词表生成的。

关于这种机造数据的好处笔者的观点在 SynCLR 那篇中已经说过，是生成数据的高质量和可控性，结合多正例的对比学习方式，相比自监督和有监督学习，会得到更合理的监督信号的粒度。

Adenialzz

关注

7
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
StableRep - Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners

这篇 StableRep 相当于是 SynCLR 的前身。首先提出了使用同一个 caption 生成的多张图片，作为对比学习中的多正例的方式。即 Multi-Positive Contrastive Learning。相比于 SynCLR，区别主要是 StableRep 的 caption 是现成的，从 CC3M 等数据集中直接拿的。而 SynCLR 的机造数据思想贯彻得更彻底，连 caption 也是使用 LLM 根据类别词表生成的。
复制链接

扫一扫