MS-CLIP：模式共享的对比语言-图像预训练框架

最新推荐文章于 2024-03-27 00:22:33 发布

BIT可达鸭

最新推荐文章于 2024-03-27 00:22:33 发布

阅读量680

点赞数 1

分类专栏：多模态Vision+Language 文章标签：深度学习自然语言处理神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44936889/article/details/120789675

版权

多模态Vision+Language 专栏收录该内容

18 篇文章 20 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

MS-CLIP: modality-shared contrastive language-image pre-training

论文地址：
主要工作：
主要问题：
基本发现：
实验结果：

论文地址：

ICLR 2022: https://openreview.net/forum?id=ROteIE-4A6W
在这里插入图片描述

主要工作：

现在的大规模多模态模型大都为每种模态使用单独的编码器，但是最近的研究表明，Transformer 可以支持跨多种模式的学习。受此启发，作者研究了如何构建一种模式共享的对比语言-图像预训练框架（MS-CLIP）。

更具体地说，作者在对比预训练中想研究 Transformer 模型的多少参数可以跨模式共享，并严格研究定位沿频谱共享参数比例的架构设计选择。作者观察到，一个基本统一的视觉和语言信号编码器优于所有其他分离更多参数的变化。此外，作者发现轻量级特定模态的并行适配器模块进一步提高了性能。实验结果表明，在零镜头条件下，MS-CLIP比ImageNet分类（预训练）的OpenAI CLIP强13%，同时支持参数的减少。

了解本专栏

超级会员免费看

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
MS-CLIP：模式共享的对比语言-图像预训练框架

MS-CLIP: modality-shared contrastive language-image pre-training论文地址：主要工作：主要问题：基本发现：实验结果：论文地址：ICLR 2022: https://openreview.net/forum?id=ROteIE-4A6W主要工作：现在的大规模多模态模型大都为每种模态使用单独的编码器，但是最近的研究表明，Transformer 可以支持跨多种模式的学习。受此启发，作者研究了如何构建一种模式共享的对比语言-图像预训练框架（MS
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

BIT可达鸭 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。