论文阅读—— Multimodal Foundation Models:From Specialists to General-Purpose Assistants（Chapter 1-2）

じんじん

已于 2023-12-23 21:17:21 修改

阅读量630

点赞数 11

分类专栏：论文文章标签：人工智能

于 2023-12-23 17:17:14 首次发布

本文链接：https://blog.csdn.net/weixin_43575791/article/details/135167345

版权

论文专栏收录该内容

68 篇文章 1 订阅

订阅专栏

Multimodal Foundation Models:From Specialists to General-Purpose Assistants

Chapter 1 Introduction

introduces the landscape of multimodal foundation model research, and presents a historical view on the transition of research from specialists to general-purpose。

文章涉及的研究领域包括五个核心主题，分为两类：（1）为特定目的预先训练的多模态基础模型，包括两个主题——用于视觉理解的视觉骨干网络和文本到图像生成的；（2）探索性开放研究领域的最新进展：旨在发挥通用助理作用的多模式基础模型，包括三个主题——受大型语言模型（LLM）启发的统一视觉模型、多模态LLM的端到端训练，以及与LLM连接的多模态工具。

基础模型发展轨迹：

以语言模型为例，发展轨迹差不多这样：（1）早期特定任务、特定模型，从头训练（2）大规模预训练模型在咸鱼=现有任务上表现SOTA，并用来做下游任务（3）以GPT-3为例，大型语言模型（LLM）将各种语言理解和生成任务统一为一个模型。随着网络规模的训练和统一，出现了一些新兴的能力，如上下文学习和思想链（in-context-learning and chain-of-thoughts）。（4）随着human-AI alignment的最新进展，LLM开始发挥通用助手的作用，以遵循人类的意图在野外完成广泛的语言任务。基础模型的最新迭代建立在早期模型的基础上，同时还提供了额外的功能。

文章聚焦于视觉领域的多模态模型。相关的主题包括：

（1）image understanding models，如：self-supervised learning、SAM

（2）image generation models

（3）vision-language pre-training (VLP)

1.1 What are Multimodal Foundation Models?

From a technical perspective, it is transfer learning that makes foundation models possible, and it is scale that makes them powerful.

In NLP, the introduction of BERT in late 2018 is considered as the inception of the foundation model era. 在NLP中，2018年末引入的BERT被认为是基础模型时代的开始。

Visual Understanding Models：Visual Understanding Models就是学习backbone。学习一般视觉表示对于建立视觉基础模型至关重要，因为预训练强大的视觉骨干网络是所有类型的计算机视觉下游任务的基础。计算机视觉下游任务包括：

image-level (e.g., image classification, retrieval, and captioning),

region-level (e.g., detection and grounding)

pixel-level tasks (e.g., segmentation)

方法分为三类：

Label supervision：ImageNet

Language supervision：CLIP

Image-only self-supervision：contrastive learning，masked image modeling

Multimodal fusion, region-level and pixel-level pre-training：open-set object detection，promptable semgentation，multimodal fusion（CoCam, Flamingo）

Visual Generation Models:vector-quantized VAE methods , diffusion-based models and auto-regressive models.

Text-conditioned visual generation：该研究领域专注于开放式文本描述或提示条件下生成高质量图片或视频等。如文生图模型：DALL-E，DALL-E2，Stable Diffusion，Imagen，文本生成视频模型：Imagen Video，Make-A-Video。

Human-aligned visual generator：该研究领域专注于使预训练视觉生成器更好的遵循人类指令。

General-purpose Interface：前面提到的多模态模型为特定目的设计的——处理一组特定的问题/任务。现有的工作集中在三个研究主题上。第一个主题旨在统一视觉理解和生成的模型。这些模型的灵感来自NLP中LLM的统一思想，但在建模中没有明确地利用预先训练的LLM。相比之下，其他两个主题分别包含并涉及建模中的LLM，包括与LLM的训练和链接。

Unified vision models for understanding and generation：有三个级别的统一：（1）通过将所有闭集视觉任务转换为开集视觉任务来连接视觉和语言，如CLIP。（2）对不同粒度级别任务的统一，如X-Decoder，GLIP-v2等。（3）像GPT一样更加交互性和可提示，如SAM，SEEM。

Training with LLMs：扩展LLM到多模态，如Multimodal GPT-4，Flamingo。

Chaining tools with LLM：开发使用LLMs能力的工具.。将ChatGPT等LLM与各种多模态基础模型相结合，通过对话接口促进图像理解和生成。如：Visual ChatGPT，MM-REACT。

文章结构图：

Chapter 2 Visual Understanding

2 Supervised Pre-training

开始在ImageNet，ImageNet21K上预训练如ResNet，Swin transformer，但是效果受到数据集规模和多样性的制约，于是有了更大数据集，从网络上抓取的图像-文本对中大量导出有噪声的标签，如IG-3.6B，提出了很多损失函数，如large margin loss。

数据集统计：

3 Contrastive Language-Image Pre-training

Basics of CLIP Training：

CLIP Variants：

CLIP变体主要几个方面：Data scaling up，Model design and training methods，Objective function

模型设计和训练方法又分为几类：

Image tower：在图像编码器一侧，FLIP提出通过掩蔽来缩放CLIP训练，通过以高掩蔽比随机掩蔽图像块，并像MAE中那样仅对可见块进行编码，证明了掩蔽可以在不损害性能的情况下提高训练效率。该方法可用于所有CLIP训练。过滤掉图像中包含文本区域的样本可以提高CLIP训练效率和鲁棒性。

Language tower：使用Wiki实体定义形式的外部知识与原始alt文本一起进行对比预训练；通过使用大型语言模型（如ChatGPT）重写嘈杂和简短的alt文本来改进。

Interpretability：图像表示通常是密集的特征向量。为了提高共享图像-文本嵌入空间的可解释性，STAIR提出将图像和文本映射到高维、稀疏的嵌入空间，其中稀疏嵌入中的每个维度是大字典中的（子）词，其中预测的非负标量对应于与令牌相关联的权重。作者表明，STAIR比普通CLIP获得了更好的性能，并提高了可解释性。

More modalities：对比学习的理念是普遍的，可以超越图像和文本模式。例如ImageBind提出将六种模态编码到一个公共嵌入空间中，包括图像、文本、音频、深度、热和IMU模态。

Objective function

Fine-grained supervision：不使用简单的点积来计算图像-文本对的相似性，可以通过学习word-patch对齐使监督更加细粒度。

Contrastive captioner：除了对比学习分支，增加生成损失，以提高性能，并允许需要多模式融合的新功能。

Captioning loss alone：开始这个损失似乎没有clip的对比损失好，但是最近的工作证明captioners 也是可扩展的视觉学习者。Captioning可以表现出相同甚至更好的缩放行为。

Sigmoid loss for language-image pre-training：a simple pairwise sigmoid loss for image-text pretraining, which operates on image-text pairs and does not require a global view of the pairwise similarities for normalization，表现的也很好。

4 Image-Only Self-Supervised Learning

三部分：(i) contrastive learning, (ii) non-contrastive learning, and (iii) masked image modeling.

Contrastive learning

所有仅图像的对比学习方法，共享相同的框架：

给定一张图片，应用两个独立的数据增强；

encoder后面接一个映射头project head，训练目标是使用对比损失最大化一致性。

下游任务时把映射头丢掉。

对比学习需要大量负样本。

Non-contrastive learning

自监督学习不需要大量负样本，负样本的使用被非对称框架取代。

例如，如图2.7（b）所示，在SimSiam（Chen和He，2021）中，单个图像的两个增强视图由相同的编码器网络处理。随后，预测MLP被应用于一个视图，而停止梯度操作被应用于另一个视图。该模型的主要目标是最大限度地提高两个视图之间的相似性。值得注意的是，SimSiam既不依赖负对，也不依赖动量编码器。

另一种值得注意的方法，即DINO（Caron等人，2021），如图2.7（c）所示，采用了一种独特的方法。DINO涉及将输入图像的两个不同的随机变换输入到学生和教师网络中。两个网络共享相同的体系结构，但具有不同的参数。教师网络的输出是通过计算批次上的平均值来集中的。每个网络输出特征向量，该特征向量利用应用于特征维度的温度softmax进行归一化。使用交叉熵损失来量化这些特征之间的相似性。此外，将停止梯度算子应用于教师网络，以确保梯度仅通过学生网络传播。此外，DINO使用学生参数的指数移动平均值来更新教师的参数

Masked Image Modeling(MIM)

MIM类模型的一个统一观点：教师模型、规范层、学生模型、MIM头和适当的损失函数。所有这些模型之间最显著的差异在于重建目标，这些目标可以是像素、离散图像标记、来自预训练模型的特征以及来自动量更新教师的输出。具体来说，目标可以大致分为两类。

Low-level pixels/features as targets：使用像素值作为目标

High-level features as targets：使用learned image tokenizers使用来自CLIP的图像特征作为目标特征来进行特征预测等。

作者花了不少篇幅说和MIM结合的模型，如MIM for video pre-training，Lack of learning global image representations，Scaling properties of MIM

5 Synergy Among Different Learning Approaches

Combining CLIP with label supervision：如UniCL，LiT，MOFI

Combining CLIP with image-only (non-)contrastive learning：如SLIP，xCLIP

Combining CLIP with MIM：两类：Shallow interaction，如MVP，BEiTv2；Deeper integration。

6 Multimodal Fusion, Region-Level and Pixel-Level Pre-training

6.1 From Multimodal Fusion to Multimodal LLM

OD-based models：Most early methods use pre-trained object detectors (ODs) to extract visual features.而像UNITER之类的模型treat image features as soft prompts of the text input to be sent into a multimodal transformer。

End-to-end models：主流方法。Vit一类的方法。

Trend to multimodal LLM：如LLaVA，MiniGPT-4，Flamingo

6.2 Region-Level Pre-training

CLIP通过对比预训练学习全局图像表示。然而，对于需要细粒度图像理解的任务，如对象检测，CLIP是不够的。设计的新模型：RegionCLIP，OVR-CNN，Grounding DINO等。

6.3 Pixel-Level Pre-training

SAM和其扩展的一些模型

じんじん

关注

11
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
论文阅读—— Multimodal Foundation Models:From Specialists to General-Purpose Assistants（Chapter 1-2）

为了提高共享图像-文本嵌入空间的可解释性，STAIR提出将图像和文本映射到高维、稀疏的嵌入空间，其中稀疏嵌入中的每个维度是大字典中的（子）词，其中预测的非负标量对应于与令牌相关联的权重。开始在ImageNet，ImageNet21K上预训练如ResNet，Swin transformer，但是效果受到数据集规模和多样性的制约，于是有了更大数据集，从网络上抓取的图像-文本对中大量导出有噪声的标签，如IG-3.6B，提出了很多损失函数，如large margin loss。现有的工作集中在三个研究主题上。
复制链接

扫一扫

专栏目录