【学习日志】202402w4\MCAN+LXMERT+Oscar+CLIP

年过七十学python

已于 2024-02-28 13:51:55 修改

阅读量846

点赞数 22

分类专栏：学习日志文章标签：学习自然语言处理

于 2024-02-23 23:38:39 首次发布

本文链接：https://blog.csdn.net/weixin_45313452/article/details/136231548

版权

学习日志专栏收录该内容

10 篇文章 0 订阅

订阅专栏

本文概述了MCAN的协同注意力模块、LXMERT的跨模态模型，以及BERT的MLM和NSP预训练方法。同时介绍了Oscar在视觉-语言对齐中的进展，通过引入物体标签改进多模态表示学习。

摘要由CSDN通过智能技术生成

2024/2/16

一、 MCAN

由协同注意力模块串联构成的深层协同注意力网络，其中每个MCA能对图像和问题的注意力进行建模。
阅读笔记

1. 提出两个普通注意力单元：

Self attention unit：用于模态内部交互建模
Guided-attention unit：用于模态之间交互建模
再用MCA将SA和GA串联，最后将多个模块层串联，组成MCAN（modular co-attention network）。

2. 背景

VQA一般处理思路：
（a）将输入的图像和问题表示为全局特征（LSTM）；
（b）利用多模态融合模型进行答案预测（residual network）。
协同注意力模块
需求：同时学习问题的文本注意力和图像的视觉注意力
缺点：在每个模态中分别学习其分布，忽略了图像和文本的dense interaction。

3. MCAN主体

缩放点积注意力：输入由问题、关键词的维度 $d_{key}$ 、值的维度 $d_{value}$ 组成.

二. LXMERT

参考

新跨模态模型侧重于学习视觉和语言交互，尤其是单个图像及其描述性句子的表示。模型由三Transformer个编码器组成：对象关系编码器、语言编码器和跨模态编码器。
为了赋予模型连接视觉和语言语义的能力，原论文通过五个不同的代表性预训练任务，使用大量图像和句子对模型进行预训练：masked语言建模，masked对象预测（特征回归和标签分类），跨模态匹配和图像问题解答。

1. 类似研究

Visual captioning:视觉字幕。以自动的方式为给定的视觉（图像或视频）输入生成语法和语义上适当的描述的任务。为视觉输入生成解释性和相关的字幕不仅需要丰富的语言知识，还需要对视觉输入中出现的实体、场景及其交互有连贯的理解。文献
Visual retrieval：视觉检索，文本-图像检索是一项跨模态的任务，需要对语言域和视觉域进行理解，并采用适当的匹配策略。这样做的目的是根据文本描述从更大的图像库中提取最相关的图像。
Vision-Language Navigation (VLN)：视觉语言导航，视觉语言导航是一种基于语言指令的主体运动的基础自然语言任务。这通常被视是一项序列到序列转编码的任务，类似于VQA。然而，这两者之间有明显的区别。VLN通常有更长的序列，问题的动态完全变化，因为它是一个实时演化的任务。文献

- Transformer&self-attention

$Attention(Q,K,V)=softmax(\frac{QK^{\top}}{\sqrt{d_k}} )V.$
Transformer
self-attention
Transformer_code

- Residual Connection

概念：一种通过引入跨层的直接连接来优化深度神经网络的方法。将输入x与层的输出F(x)相加，该层的残差连接可以表示为：输出=F(x)+x.
ResNet

2. LXMERT model

在这里插入图片描述

- Bert

（Bidirectional encoder representation from transformers）
Bert

大量无标记数据集中训练得到的深度模型，可以显著提高各项自然语言处理任务的准确率。
BERT用MLM（Masked Language Model，掩码语言模型）方法训练词的语义理解能力，用NSP（Next Sentence Prediction，下句预测）方法训练句子之间的理解能力，从而更好地支持下游任务。

1. MLM

借鉴完形填空任务和Word2Vec中CBOW算法的思想，而定义的一种模型预训练任务。
随机抽取部分词进行掩码操作（用字符替换），训练Bert来正确预测这些掩码词。
mask 15%的token，分三种情况：
其中80%，用[mask]替换，对mask进行预测，预测错误再重新进行训练优化
其中10%，用另一个词替换
其中10%，该词保持不变
模型预测masked tokens
loss只计算masked tokens，其他位置的tokens不计算

2. NSP

令Bert学会捕捉句子间的语义联系。
50%：选择实际的下一个句子
50%：选择随机句子
loss_bert=loss_mlm+loss_nsp

有空研究代码小抄

20240223

- pre-training模型是什么

在这里插入图片描述

一、Oscar

核心问题：如何去学习视觉-语言对齐表示？

视觉语言联合训练中，没有额外的信息该问题基本上是一个弱监督学习的问题，单词与图像区域之间的对应几乎没有标注。所有后来相关工作都尝试与解决单词和区域对齐的问题（grounding）。
Oscar注意到物体检测的结果，既有图像的区域特征也有检测完物体标签的特征，使得有可能去引入更好的监督信息，帮助视觉语言联合训练去学习对齐特征
最大的贡献在于在视觉语言预训练中引入物体标签，通过物体检测辅助图像和文本的语义对齐，通过其兼具视觉和语言特征这一特点，帮助解决多模态表示学习中的语义对齐问题。

1. 三元组作为模型输入

在预训练中对于通常采用的（图像区域序列，句子单词序列）二元组作为模型输入的基础上，引入物体标签信息，构造（图像区域序列，物体标签序列，句子单词序列），并且在训练损失函数中增加对比学习，鼓励预训练模型更有效地学习语义对齐的多模态表示。

物体标签序列（Object anchor）：物体检测的结果联合了区域特征和语义标签两种属性。物体检测模型检测出类别，这些类别标签可以带来很多语义特征。

2. 损失函数的设计

Masked token loss:

constrastive loss: 鼓励模型学习如何用物体标签找到真正正确区域和对应的正确单词

在这里插入图片描述

实现Bert里的MLM

年过七十学python

关注

22
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
【学习日志】202402w4\MCAN+LXMERT+Oscar+CLIP

再用MCA将SA和GA串联，最后将多个模块层串联，组成MCAN（modular co-attention network）。由协同注意力模块串联构成的深层协同注意力网络，其中每个MCA能对图像和问题的注意力进行建模。在预训练中对于通常采用的（图像区域序列，句子单词序列）二元组作为模型输入的基础上，引入。），并且在训练损失函数中增加对比学习，鼓励预训练模型更有效地学习语义对齐的多模态表示。Guided-attention unit：用于模态之间交互建模。
复制链接

扫一扫