多模态模型学习1——CLIP对比学习 语言-图像预训练模型
学了一些多模态的知识,CLIP算是其中最重要也是最通用的一环,一起来看一下吧。CLIP的全称是Contrastive Language-Image Pre-Training,中文是对比语言-图像预训练,是一个预训练模型,简称为CLIP。该模型是 OpenAI 在 2021 年发布的,最初用于匹配图像和文本的预训练神经网络模型,这个任务在多模态领域比较常见,可以用于文本图像检索,CLIP是近年来在多模态研究领域的经典之作。该模型大量的成对互联网数据进行预训练,在很多任务表现上达到了目前最佳表现(SOTA)
原创
2023-04-05 15:14:09 ·
36896 阅读 ·
75 评论