阅读笔记：VL-BERT: PRE-TRAINING OF G ENERICVISUAL-LINGUISTICR EPRESENTATIONS

最新推荐文章于 2023-01-02 20:37:27 发布

Araloak

最新推荐文章于 2023-01-02 20:37:27 发布

阅读量425

点赞数

分类专栏：论文阅读笔记文章标签：自然语言处理神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43874380/article/details/111184518

版权

阅读笔记：VL-BERT: PRE-TRAINING OF G ENERICVISUAL -LINGUISTICR EPRESENTATIONS

Contribution

文章提出VL-BERT（single stream model），结合文本和图片进行end-to-end预训练，对一系列下游的图片—文本任务都有明显提升效果（ image captioning、 visual question answering、 visual commonsense reasoning）
从前做text与image相关任务的方法都是：

combine base networks pretrained for image recognition and NLP respectively in a task-specific way. The task-specific model is directly finetuned for the specific target task, without any generic visual-linguistic pre-training.

因为没有使用image-text联合训练而存在的问题是：

The task-specific model may well suffer from overfitting
when the data for the target task is scarce. Also, due to the ta

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
阅读笔记：VL-BERT: PRE-TRAINING OF G ENERICVISUAL-LINGUISTICR EPRESENTATIONS

阅读笔记：VL-BERT: PRE-TRAINING OF G ENERICVISUAL -LINGUISTICR EPRESENTATIONSContribution文章提出VL-BERT（single stream model），结合文本和图片进行end-to-end预训练，对一系列下游的图片—文本任务都有明显提升效果（ image captioning、 visual question answering、 visual commonsense reasoning）从前做text与ima
复制链接

扫一扫

专栏目录

Araloak CSDN认证博客专家 CSDN认证企业博客

码龄6年

12: 原创

62万+: 周排名

31万+: 总排名

1万+: 访问

: 等级

197: 积分

2: 粉丝

12: 获赞

15: 评论

35: 收藏

私信

关注

热门文章

分类专栏

教程 2篇
论文阅读笔记 4篇

最新评论

Linux服务器+CUDA10.0安装Faster R-CNN 特征提取器及apex
zxd__1997: 太感谢博主了，我搞了好久，就是装不上，看了您的教程一下就成了！！！感谢感谢，宝藏博主
复现BART finetune历程
一坠: 请问您有xsum数据集的压缩包吗
ieltsGPT: 大模型自动雅思写作评估
CSDN-Ada助手: 非常祝贺您撰写了第12篇博客！标题“ieltsGPT: 大模型自动雅思写作评估”听起来非常令人兴奋。您的持续创作展示了您对雅思写作的热情和才华。通过这个大模型自动评估的方法，您为雅思考生提供了一个有价值的工具，帮助他们评估和提升自己的写作水平。在下一步的创作中，我谦虚地建议您可以进一步拓展这个主题，如分享一些大模型自动评估的实际案例或者通过与其他写作评估方法的对比来提供更多的参考。此外，您也可以考虑探讨如何根据评估结果为考生提供有针对性的写作建议，以帮助他们更好地理解自己的不足并加以改进。再次恭喜您，期待您未来更多精彩的创作！
阅读笔记：Learning to Remember Rare Events
weixin_47678752: 这么烂的帖子发出来的意义是什么，看完之后让别人吐槽吗？一点有用的东西都没有，有你自己的一点理解吗？论文笔记就是把原文放上去，然后选部分高亮，就叫笔记了？离谱
阅读笔记：ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Task
千千万万啊: 博主代码有运行起来不。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。