1.对其文本和图像(隐式)
2.在image caption数据集上对visual bert进行预训练并用于四种视觉和语言任务
二、介绍
1.旨在捕获图像和相关文本中的丰富语义
2.两种预训练:mask和文本图像是否匹配
(这里可以再想一些其他的预训练的方式,例如下一个词的预训练)
三、相关工作
1.大多是为特定任务而设计的,而vb是通用的
2.理解图像中描绘的语义
3.各家的与训练方式不相同
bert mask
videobert 图文配对
vilbert 图文有分离,参数翻倍
四、模型
1.bert mask和下一个句子任务
2.图片embedding和对齐文本图像
3.图片embeding=fastrcnn+是否式图片+位置嵌入
4.区分两个标题是真与假的(另一标题,随即绘制)
五、实验
100k图像
1.三种验证方式:
i.使用bert参数初始化,纯文字?还是图文
ii.最后一层再融合图文
iii.不带图文相关预训练,看看图文相关是不是有用
六、分析
消融分析
1.与任务无关的预训练,纯文本->表现不佳,说明加入视觉很重要
2.早期融合->与最后融合对比->早期融合很重要
3.bert参数初始化->无所谓用不用
4.不包含任务2的预训练->任务2有用但不大
最有用的是1和2(数据量的问题)
注意力权重的分析
VisualBERT笔记
最新推荐文章于 2024-04-17 09:53:44 发布