Multi-Modal Pre-trained Model总结（二）

最新推荐文章于 2024-08-01 15:55:25 发布

灏宝冲冲冲

最新推荐文章于 2024-08-01 15:55:25 发布

阅读量170

点赞数

分类专栏：多模态文章标签：人工智能深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_44062176/article/details/134765453

版权

多模态专栏收录该内容

2 篇文章 0 订阅

订阅专栏

多模态预训练模型BLIP， BLIP-2，BLIP-Adapter

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

论文地址
 代码地址

BLIP系列是Salesforce非常经典的作品，在作者自己文章对比的baseline中，blip也一直保持着很高的zero-shot performance。可以说在作者心目中CLIP和BLIP就是VLM中的两块奠基石。

结构

BLIP结构图
其实好的网络往往不需要对细节进行改进，clip focus在数据工程层面上，blip则是注重于复用pre-trained model并根据任务场景构建新的复合loss来完成性能的提升，在blip之前的ALBEF，VLMo也都是如此。在作者看来这种更贴近任务本质的方式往往可以取得更好的效果。因为复杂的blocks的初始设计思路就是针对某一些特定的任务场景，所以也无法泛化和迁移到其它场景下进行使用。

言归正传，BLIP的结构主要包括三个部分，visual encoder， text encoder和fusion decoder。落实到文章上，就是一个ViT+一个Bert。针对不同的任务，blip使用了不同的loss，想讲清楚blip系列就要先明确这三种loss和对应的任务。

ITC loss

$\mathcal{L}_{itc}=\frac{1}{2}\mathbb{E}_{(I, T)\sim D}[\textbf{H}(\textbf{y}^{i2t}(I), \textbf{p}^{i2t}(I)) + \textbf{H}(\textbf{y}^{t2i}(T), \textbf{p}^{t2i}(T))] \\ = \frac{1}{2}\mathbb{E}_{(I, T)\sim D}[(-1)\mathbb{E}_{(I, T)\sim D}[\sum\textbf{y}^{i2t}(I) log(\frac{exp(s(I, T_m)/ \tau)}{\sum^{J}_{j=1}exp(s(I, T_j)/ \tau)})]+(-1)\mathbb{E}_{(I, T)\sim D}[\sum\textbf{y}^{t2i}(T) log(\frac{exp(s(T, I_m)/ \tau)}{\sum^{J}_{j=1}exp(s(T, I_j)/ \tau)})]]$
ITC Loss是在一个batch内计算所有image-text pair score，尽可能让text和image在第一个stage上align。

ITM loss

$\mathcal{L}_{itc}=\mathbb{E}_{(I, T)\sim D}\textbf{H}(\textbf{y}^{itm}, \textbf{p}^{itm}(I, T))$
ITM Loss是从ITC的所有负样本中选择一个最难的样本，在feature后接一个FC层进行二分类。

此时模型forward是原Image和原Text

MLM loss

$\mathcal{L}_{mlm}=\mathbb{E}_{(I, \hat{T})\sim D}\textbf{H}(\textbf{y}^{msk}, \textbf{p}^{msk}(I, \hat{T})) \\ = \mathbb{E}_{(I, \hat{T})\sim D} -\sum \textbf{y}^{mask} log\textbf{p}^{msk}(I, \hat{T})$
MLM Loss首先需要对原始的text进行部分mask。具体操作是15%原text mask，12%用[MASK]标记掩盖，1.5%随机替换为原text list中的其它tokens，1.5%保持不变。之后计算预测tokens和原始tokens之间的交叉熵损失。
此时模型forward是原Image和带mask的 ${T}^{'}$