【学习日志】202402w4\MCAN+LXMERT+Oscar+CLIP

本文概述了MCAN的协同注意力模块、LXMERT的跨模态模型,以及BERT的MLM和NSP预训练方法。同时介绍了Oscar在视觉-语言对齐中的进展,通过引入物体标签改进多模态表示学习。
摘要由CSDN通过智能技术生成

2024/2/16

一、 MCAN

由协同注意力模块串联构成的深层协同注意力网络,其中每个MCA能对图像和问题的注意力进行建模。
阅读笔记

1. 提出两个普通注意力单元:

Self attention unit:用于模态内部交互建模
Guided-attention unit:用于模态之间交互建模
再用MCA将SA和GA串联,最后将多个模块层串联,组成MCAN(modular co-attention network)。

2. 背景

  • VQA一般处理思路:
    (a)将输入的图像和问题表示为全局特征(LSTM);
    (b)利用多模态融合模型进行答案预测(residual network)。
  • 协同注意力模块
    需求:同时学习问题的文本注意力和图像的视觉注意力
    缺点:在每个模态中分别学习其分布,忽略了图像和文本的dense interaction。

3. MCAN主体

  • 缩放点积注意力:输入由问题、关键词的维度 d k e y d_{key} dkey、值的维度 d v a l u e d_{value} dvalue组成.在这里插入图片描述
  • 在这里插入图片描述在这里插入图片描述

二. LXMERT

参考

  • 新跨模态模型侧重于学习视觉和语言交互,尤其是单个图像及其描述性句子的表示。模型由三Transformer个编码器组成:对象关系编码器、语言编码器和跨模态编码器。
  • 为了赋予模型连接视觉和语言语义的能力,原论文通过五个不同的代表性预训练任务,使用大量图像和句子对模型进行预训练:masked语言建模,masked对象预测(特征回归和标签分类),跨模态匹配和图像问题解答。

1. 类似研究

  • Visual captioning:视觉字幕。以自动的方式为给定的视觉(图像或视频)输入生成语法和语义上适当的描述的任务。为视觉输入生成解释性和相关的字幕不仅需要丰富的语言知识,还需要对视觉输入中出现的实体、场景及其交互有连贯的理解。 文献
  • Visual retrieval:视觉检索, 文本-图像检索是一项跨模态的任务,需要对语言域和视觉域进行理解,并采用适当的匹配策略。这样做的目的是根据文本描述从更大的图像库中提取最相关的图像。
    Vision-Language Navigation (VLN):视觉语言导航,视觉语言导航是一种基于语言指令的主体运动的基础自然语言任务。这通常被视是一项序列到序列转编码的任务,类似于VQA。然而,这两者之间有明显的区别。VLN通常有更长的序列,问题的动态完全变化,因为它是一个实时演化的任务。 文献

- Transformer&self-attention

A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K ⊤ d k ) V . Attention(Q,K,V)=softmax(\frac{QK^{\top}}{\sqrt{d_k}} )V. Attention(Q,K,V)=softmax(dk QK)V.
Transformer
self-attention
Transformer_code

- Residual Connection

  • 概念:一种通过引入跨层的直接连接来优化深度神经网络的方法。将输入x与层的输出F(x)相加,该层的残差连接可以表示为:输出=F(x)+x.
    在这里插入图片描述
  • ResNet

2. LXMERT model

在这里插入图片描述在这里插入图片描述

- Bert

(Bidirectional encoder representation from transformers)
Bert

  • 大量无标记数据集中训练得到的深度模型,可以显著提高各项自然语言处理任务的准确率。
  • BERT用MLM(Masked Language Model,掩码语言模型)方法训练词的语义理解能力,用NSP(Next Sentence Prediction,下句预测)方法训练句子之间的理解能力,从而更好地支持下游任务。
    在这里插入图片描述

1. MLM

  • 借鉴完形填空任务和Word2Vec中CBOW算法的思想,而定义的一种模型预训练任务。
  • 随机抽取部分词进行掩码操作(用字符替换),训练Bert来正确预测这些掩码词。
  • mask 15%的token,分三种情况:
    其中80%,用[mask]替换,对mask进行预测,预测错误再重新进行训练优化
    其中10%,用另一个词替换
    其中10%,该词保持不变
    模型预测masked tokens
    loss只计算masked tokens,其他位置的tokens不计算
    在这里插入图片描述

2. NSP

  • 令Bert学会捕捉句子间的语义联系。
  • 50%:选择实际的下一个句子
    50%:选择随机句子
    loss_bert=loss_mlm+loss_nsp
    在这里插入图片描述在这里插入图片描述

有空研究代码小抄

20240223

- pre-training模型是什么

在这里插入图片描述

一、Oscar

核心问题:如何去学习视觉-语言对齐表示?

  • 视觉语言联合训练中,没有额外的信息该问题基本上是一个弱监督学习的问题,单词与图像区域之间的对应几乎没有标注。所有后来相关工作都尝试与解决单词和区域对齐的问题(grounding)。
  • Oscar注意到物体检测的结果,既有图像的区域特征也有检测完物体标签的特征,使得有可能去引入更好的监督信息,帮助视觉语言联合训练去学习对齐特征
  • 最大的贡献在于在视觉语言预训练中引入物体标签通过物体检测辅助图像和文本的语义对齐,通过其兼具视觉和语言特征这一特点,帮助解决多模态表示学习中的语义对齐问题。
    在这里插入图片描述

1. 三元组作为模型输入

在预训练中对于通常采用的(图像区域序列,句子单词序列)二元组作为模型输入的基础上,引入物体标签信息,构造(图像区域序列,物体标签序列,句子单词序列),并且在训练损失函数中增加对比学习,鼓励预训练模型更有效地学习语义对齐的多模态表示。

  • 物体标签序列(Object anchor):物体检测的结果联合了区域特征和语义标签两种属性。物体检测模型检测出类别,这些类别标签可以带来很多语义特征。
    在这里插入图片描述

2. 损失函数的设计

  • Masked token loss:
  • constrastive loss: 鼓励模型学习如何用物体标签找到真正正确区域和对应的正确单词
    三元组表示

在这里插入图片描述

在这里插入图片描述

实现Bert里的MLM

  • 22
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值