BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Mode

最新推荐文章于 2024-09-01 21:08:00 发布

will-wil

最新推荐文章于 2024-09-01 21:08:00 发布

阅读量651

点赞数 7

分类专栏：论文阅读文章标签：人工智能 python

本文链接：https://blog.csdn.net/yangyanbao8389/article/details/136355698

版权

10 篇文章 0 订阅

订阅专栏

BLIP2提出了一种新的视觉语言预训练方法，通过组合预训练的视觉编码器和语言模型，实现高效的内容理解和生成。它在保持高精度的同时，减少了训练参数和成本，且在多项任务上表现出色，尤其是零-shot情况下达到SOTA。

摘要由CSDN通过智能技术生成

现代计算机视觉和自然语言模型在能力越来越强大的同时，模型尺寸也随之显著增大，进行一次单模态模型的预训练十分昂贵，因此端到端视觉语言预训练的成本也已变得越来越高
本文提出一种新的视觉语言预训练范式，该范式可以任意组合并充分利用两个预训练好的视觉编码器和 LLM语言模型，是BLIP模型的续作。
模型优势：
- 实现了开放性的多模态内容理解与生成，让我们有了更多的想象空间
- 无须端到端地预训练整个架构，使得我们可以在多个视觉语言任务上实现最先进的结果，
- 显著减少训练参数量和预训练成本，比起动辄几百张卡的大模型，BLIP 2 最大的模型也不过16张A100 40G

BLIP2模型的多模态问答

开始前介绍论文前我们先来讨论下，实现图片中的问答，需要什么能力呢？

模型整体框架：

可训练的Q-Former模块连接冻结的image encoder和冻结的LLM，训练分为两阶段representation learning stage和generative pre-training stage.

模块组成：

模块训练：

训练数据：图像文本pair对
训练目标：使得queries embedding能够从图像特征中抽取出与text最相关的信息
受到BLIP启发，三个预训练任务：
- Image-Text Contrastive Learning (ITC)：计算image transformer输出query表征Z与text transformer输出文本表征T中【CLS】token相似性，相似度取Z与【CLS】向量最高的分数，使用单模态的mask矩阵防止信息泄漏
- Image-Text Matching (ITM)：学习图像和文本特征匹配，根据ITC得到的相似度在线hard构建正负例pair对，拼接query表征Z和文本表征T，采用双向的mask矩阵，经过self-attention交互，对query表征Z进行线性层二分类，对分数取平均，作为最终的输出分数
- Image-grounded Text Generation (ITG) ：效仿UniLM方法，queries embedding与图像特征进行交互得到有效信息，作为text transformer的输入前缀，以【DEC】作为文本解码表示，采用因果自注意力mask控制可视范围

将Q-Former与大型LLM模型相连，获取LLM的语言生成能力，用FC层映射输出的query表征Z至LLM的特征空间

基于Q-Former提取到的视觉表征作为soft visual prompt，作为LLM语言模型的输入前缀，由于Q-Former已经预训练用于提取对文本有用的视觉表征，可减轻LLM学习视觉-文本对齐的负担

消融实验，representation learning stage训练的重要性

模型在VQA、Image Caption、ITR任务上的实验效果，达到zero-shot SOTA的效果，同时只需要很少的训练参数

开放性的多模态模型，拼接任何图像编码器和LLM语言模型

关注

专栏目录