文章目录
Learning Transferable Visual Models From Natural Language Supervision(使用自然语言的监督信号训练一个可迁移的视觉模型)
Abstract
目前的视觉模型通过一些预定义好的标签集合作为监督信号进行训练。这类做法局限于当前数据集,因此泛化性能差。出于这一理由,从文本当中获取监督信号,在四亿个图像文本对上进行无监督学习。
零样本学习,在超过30个数据集上取得了不错的性能(迁移能力强)。
CLIP的魅力在于不需要预定的标签,可以知道语句中是否存在图像内的物体。
下游任务包含分类、检测、分割、风格迁移、视频检索…