![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 90
Mira-Tableau
致力于视觉造福社会
展开
-
图文 Contrastive Learning (CLIP) VS Pre-training tasks (ViLT)
Contrastive Learning (CLIP) VS Pre-training tasks (ViLT)结果展示图+文找相同,第一列到第四列从左到右依次为:CLIP图分支,CLIP图+文,CNN(Resnet50),最后一列为文本;(记录)因为看到下面这两篇文章,所以重新回顾了一些经典的文章,拿来做分析;俗话说因果循环,辩证思考;在Contrastive Learning基础上展开的研究(个人观点)How Much Can CLIP Benefit Vision-and-Langu原创 2021-07-26 19:29:49 · 1674 阅读 · 0 评论 -
# 互信息最大化[视角统一]:Align before Fuse: Vision Language Representation Learning with Momentum Distillation
互信息最大化[视角统一]:Align before Fuse: Vision and Language Representation Learning with Momentum Distillation摘要视觉和语言表示学习已经广泛被应用与各种视觉语言任务。现有方法大多数基于Transformer方法的多模态编码器同时进行视觉特征学习(基于区域的图像特征)和文本特征学习。鉴于视觉特征和文本特征之间的语义空间不一致问题,因此多模态编码器在学习图像-文本交互上具有非常大的挑战性。文章通过引入对比损失,通过原创 2021-07-23 17:30:02 · 5347 阅读 · 2 评论 -
CLIP在V&L中的应用-How Much Can CLIP Benefit Vision-and-Language Tasks
How Much Can CLIP Benefit Vision-and-Language Tasks这里提取了文章的主要核心观点,也即基于CLIP的自监督任务,在V&L也不错的表现;笔者认为,文章未对CLIP模型本身在V&L任务上的表现做出评估,基于对比学习的CLIP训练模型结果,已经具备不同模态间的语义对齐能力,也即视觉分支的嵌入特征与文本分支的嵌入特征已经具有语义一致性;文章的创新偏重于模型训练迁移技巧,模型上创新不足,未充分考虑contrastive learning 和 V&a原创 2021-07-22 12:00:02 · 822 阅读 · 0 评论