VisualBERT笔记

最新推荐文章于 2024-04-17 09:53:44 发布

AI（看到我请提醒我学习）

最新推荐文章于 2024-04-17 09:53:44 发布

阅读量1.9k

点赞数

分类专栏：笔记文章标签：深度学习人工智能机器学习计算机视觉 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43867850/article/details/106610617

版权

笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.对其文本和图像（隐式）
2.在image caption数据集上对visual bert进行预训练并用于四种视觉和语言任务
二、介绍
1.旨在捕获图像和相关文本中的丰富语义
2.两种预训练：mask和文本图像是否匹配
（这里可以再想一些其他的预训练的方式，例如下一个词的预训练）
三、相关工作
1.大多是为特定任务而设计的，而vb是通用的
2.理解图像中描绘的语义
3.各家的与训练方式不相同
bert mask
videobert 图文配对
vilbert 图文有分离，参数翻倍
四、模型
1.bert mask和下一个句子任务
2.图片embedding和对齐文本图像
3.图片embeding=fastrcnn+是否式图片+位置嵌入
4.区分两个标题是真与假的（另一标题，随即绘制）
五、实验
100k图像
1.三种验证方式：
i.使用bert参数初始化，纯文字？还是图文
ii.最后一层再融合图文
iii.不带图文相关预训练，看看图文相关是不是有用
六、分析
消融分析
1.与任务无关的预训练，纯文本->表现不佳，说明加入视觉很重要
2.早期融合->与最后融合对比->早期融合很重要
3.bert参数初始化->无所谓用不用
4.不包含任务2的预训练->任务2有用但不大
最有用的是1和2（数据量的问题）
注意力权重的分析

AI（看到我请提醒我学习）

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
VisualBERT笔记

1.对其文本和图像（隐式）2.在image caption数据集上对visual bert进行预训练并用于四种视觉和语言任务二、介绍1.旨在捕获图像和相关文本中的丰富语义2.两种预训练：mask和文本图像是否匹配（这里可以再想一些其他的预训练的方式，例如下一个词的预训练）三、相关工作1.大多是为特定任务而设计的，而vb是通用的2.理解图像中描绘的语义3.各家的与训练方式不相同bert maskvideobert 图文配对vilbert 图文有分离，参数翻倍四、模型1.bert
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。