51-11 多模态论文串讲—VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts 论文精读

深圳季连AIgraphX

已于 2024-02-07 14:21:25 修改

阅读量1.2k

点赞数 21

分类专栏： aiXpilot 智驾大模型文章标签：自动驾驶 transformer gpt-3 智慧城市迁移学习算法

于 2024-01-13 14:28:15 首次发布

本文链接：https://blog.csdn.net/weixin_45035094/article/details/135569399

版权

aiXpilot 智驾大模型专栏收录该内容

58 篇文章 33 订阅 ¥89.90 ¥99.00

订阅专栏

超级会员免费看

VLMo是一种创新的多模态Transformer模型，结合了双塔和单塔结构的优点。通过Mixture-of-Modality-Experts (MoME)设计，模型可以适应不同的任务需求，既适用于高效的图像文本检索，也适用于复杂的多模态分类任务。论文来自微软团队，他们对多模态学习有深入研究。VLMo通过分阶段训练策略解决数据规模问题，先分别在视觉和语言数据集上训练，然后在多模态数据上进行融合训练，以提高模型性能。实验证明，这种方法在多模态任务中表现出色，为多模态学习提供了新的思路。

摘要由CSDN通过智能技术生成

VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts (NeurIPS 2022)

VLMo 是一种多模态 Transformer 模型，从名字可以看得出来它是一种 Mixture-of-Modality-Experts (MoME)，即混合多模态专家。怎么理解呢？主流 VLP 模型分为两种，一种是双塔结构 (Dual Encoder)，主要用来做多模态检索任务；一种是单塔结构 (Fusion Encoder)，主要用来做多模态分类任务。VLMo 相当于是一个混合专家 Transformer 模型，预训练完成后，使用时既可以是双塔结构实现高效的图像文本检索，又可以是单塔结构成为分类任务的多模态编码器。

作者团队，全部来自于这个微软这个团队近几年，真的是出了很多大名鼎鼎的工作，比如说BEiT v1,v2,v3，还有LayoutLM v1,v2,v3，还有做语音的，做视频的，真的是多模态领域里非常solid的一个组。所以大家如果想做多模态学习，任何一个领域的多模态学