多模态bert的变形：VisualBERT 和 BERT 的异同

最新推荐文章于 2024-05-24 21:14:22 发布

xiyou__

最新推荐文章于 2024-05-24 21:14:22 发布

阅读量824

点赞数

分类专栏：论文阅读文章标签： bert 自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiyou__/article/details/122005851

版权

论文阅读专栏收录该内容

5 篇文章 1 订阅

订阅专栏

	BERT	VisualBERT	备注
全称	Bidirectional Encoder Representations from Transformers
区别于传统Transformer	使用双向 (bidirectional) self-attention	集成了 BERT, Transformer-based model for NLP, object proposals systems such as Faster-RCNN
预训练数据集	wiki	COCO image caption dataset	VisualBERT: In order to learn associations between images and text, we consider … where detailed semantics of an image are expressed in natural language.
预训练任务1	`MLM` (masked language model, Masked LM)	MLM: 掩盖文本的部分内容，模型基于其余文本和图片内容预测掩盖词	MLM: 随机掩盖输入句子中的一些token，目的是基于他的上下文预测被掩盖的词，最终是表示能够融合上下文的含义
预训练任务2	`NSP` (next sentence prediction)	Sentence-image prediction task: 判断文本和图片是否匹配	NSP: 预测句子B是否是句子A的下一句
预训练 (pre-training) 阶段	在不同的无监督任务（`MLM` &`NSP`）上训练输入是未标注的句子样本，输出：[CLS]位置输出`NSP`任务的结果，其他对应位置输出`MLM`的结果	BERT参数初始化模型 -> 在coco上预训练 -> 在任务数据集上预训练	VisualBERT-Task-Specific Pre-Training：使用任务数据集做MLM预训练任务，有助于模型适应新的目标领域
微调 (fine-tuning) 阶段	先用预训练的参数初始化模型，再使用下游任务的数据集微调所有参数	接在预训练阶段之后，仿照BERT微调	BERT有开源的预训练模型，直接加载即可在自己的任务上微调；Transformers上有VisualBERT的预训练模型，可加载
embedding	WordPiece embeddings with a 30000 token vocabulary
文本输入表示	token embedding + segment embedding + position embedding	token embedding + segment embedding + position embedding
图片输入表示	-	visual feature representation + segment embedding + position embedding
对于图片的处理	-	使用object proposals systems 抽取的图片特征作为无序序列输入（非完整图片）	VisualBERT：每个数据集使用不同的“standard object detector” 以生成region proposals 和 region features；其解释这么做的原因 “We do not use grid-level features from ResNet152 because it results in longer sequences and longer training time”
segment embedding	区分句子A和句子B	区分文本和图片
position embedding	与句子的token顺序一致	图片的position embedding 是对齐的单词的position embedding 的总和	VisualBERT-VCR：The dataset also provides alignments between words and bounding regions that are referenced to in the text, which we utilize by using the same position embeddings for matched words and regions.
应用于下游任务时的epoch	2~4	10~12
应用于下游任务时的学习率	2e-5 3e-5 5e-5	2e-5 5e-5

关于BERT的MLM任务的疑惑：

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
多模态bert的变形：VisualBERT 和 BERT 的异同

BERTVisualBERT备注全称Bidirectional Encoder Representations from Transformers区别于传统Transformer使用双向 (bidirectional) self-attention集成了 BERT, Transformer-based model for NLP, object proposals systems such as Faster-RCNN预训练数据集wikiCOCO ima...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。