- 博客(1)
- 收藏
- 关注
原创 大型视觉语言模型:CLIP(Contrastive Language Image Pre-traning)入门级解读
与传统的视觉模型不同,CLIP模型引入了自然语言,模型中有两个编码器,一个是图像编码器,可以将一张[3, 224, 334]的图片处理成为一个向量,该向量叫做图像特征;另一个是文本编码器,同样地,它可以将一个自然语言句子处理成为一个向量,该向量叫做文本特征。
2024-08-09 20:04:08 205
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人