VisualBERT笔记

1.对其文本和图像(隐式)
2.在image caption数据集上对visual bert进行预训练并用于四种视觉和语言任务
二、介绍
1.旨在捕获图像和相关文本中的丰富语义
2.两种预训练:mask和文本图像是否匹配
(这里可以再想一些其他的预训练的方式,例如下一个词的预训练)
三、相关工作
1.大多是为特定任务而设计的,而vb是通用的
2.理解图像中描绘的语义
3.各家的与训练方式不相同
bert mask
videobert 图文配对
vilbert 图文有分离,参数翻倍
四、模型
1.bert mask和下一个句子任务
2.图片embedding和对齐文本图像
3.图片embeding=fastrcnn+是否式图片+位置嵌入
4.区分两个标题是真与假的(另一标题,随即绘制)
五、实验
100k图像
1.三种验证方式:
i.使用bert参数初始化,纯文字?还是图文
ii.最后一层再融合图文
iii.不带图文相关预训练,看看图文相关是不是有用
六、分析
消融分析
1.与任务无关的预训练,纯文本->表现不佳,说明加入视觉很重要
2.早期融合->与最后融合对比->早期融合很重要
3.bert参数初始化->无所谓用不用
4.不包含任务2的预训练->任务2有用但不大
最有用的是1和2(数据量的问题)
注意力权重的分析

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值