阅读笔记：ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Task

Araloak

于 2020-12-14 20:19:12 发布

阅读量859

点赞数 1

分类专栏：论文阅读笔记文章标签：深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43874380/article/details/111184736

版权

ViLBERT模型通过双流结构分别对文本和图像进行预训练，解决传统方法中视觉和语言模型泛化能力不足的问题。采用Co-Attentional Transformer Layers，在特定层融合文本和视觉信息，避免早期融合导致的损失。预训练任务包括预测遮罩的文本和图像 token，以及判断图文对齐。相较于单一流模型，ViLBERT强调不同信息流的独立处理和适应性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

阅读笔记：ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

在这里插入图片描述

Contribution

提出 ViLBERT 模型（two streams model），由两个BERT结构分别对text和image进行学习，通过cross-attention进行信息交流，在两个预训练任务（proxy tasks）上进行预训练。最后在4个task上进行finetune：visual question answering、visual commonsense reasoning, referring expressions、caption-based image retrieval
指出主流visual-text model的问题：

the dominant strategy is to start with separate language and vision models pretrained for other large-scale tasks and then learn grounding as part of task training – often resulting in myopic gr

最低0.47元/天解锁文章

博客等级

码龄6年

13
原创

17
点赞

45
收藏

6
粉丝

关注

私信

热门文章

分类专栏

教程 2篇
论文阅读笔记 4篇

最新评论

Linux服务器+CUDA10.0安装Faster R-CNN 特征提取器及apex
zxd__1997: 太感谢博主了，我搞了好久，就是装不上，看了您的教程一下就成了！！！感谢感谢，宝藏博主
复现BART finetune历程
一坠: 请问您有xsum数据集的压缩包吗
ieltsGPT: 大模型自动雅思写作评估
CSDN-Ada助手: 非常祝贺您撰写了第12篇博客！标题“ieltsGPT: 大模型自动雅思写作评估”听起来非常令人兴奋。您的持续创作展示了您对雅思写作的热情和才华。通过这个大模型自动评估的方法，您为雅思考生提供了一个有价值的工具，帮助他们评估和提升自己的写作水平。在下一步的创作中，我谦虚地建议您可以进一步拓展这个主题，如分享一些大模型自动评估的实际案例或者通过与其他写作评估方法的对比来提供更多的参考。此外，您也可以考虑探讨如何根据评估结果为考生提供有针对性的写作建议，以帮助他们更好地理解自己的不足并加以改进。再次恭喜您，期待您未来更多精彩的创作！
阅读笔记：Learning to Remember Rare Events
weixin_47678752: 这么烂的帖子发出来的意义是什么，看完之后让别人吐槽吗？一点有用的东西都没有，有你自己的一点理解吗？论文笔记就是把原文放上去，然后选部分高亮，就叫笔记了？离谱
阅读笔记：ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Task
千千万万啊: 博主代码有运行起来不。

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。