51-12 多模态论文串讲—BLIP (Bootstrapping Language-Image Pre-training) 论文精读

深圳季连AIgraphX

已于 2024-02-07 14:19:36 修改

阅读量1.2k

点赞数 33

分类专栏： aiXpilot 智驾大模型文章标签： transformer 自动驾驶智慧城市人工智能 gpt-3

于 2024-01-13 18:49:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45035094/article/details/135573768

版权

aiXpilot 智驾大模型专栏收录该内容

58 篇文章 34 订阅 ¥89.90 ¥99.00

订阅专栏

超级会员免费看

BLIP是一种新的视觉语言预训练模型，旨在实现统一的视觉语言理解和生成。模型通过多模态编码器-解码器混合（MED）架构，解决了现有模型在理解和生成任务上的局限。此外，CapFilter数据增强方法用于从噪声数据中学习，生成更高质量的图文对。BLIP在多个多模态任务上表现优秀，并可为其他模型提供更好的训练数据。

摘要由CSDN通过智能技术生成

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation.

视觉语言预训练VLP模型最近在各种多模态下游任务上获得了巨大的成功，目前还有两个主要局限性:

(1) 模型角度: 大多数方法要么采用encoder模型，要么采用encoder-decoder模型。然而，基于编码器的模型不太容易直接转换到文本生成任务（如图像字幕），而编码器-解码器模型尚未成功用于图像文本检索任务。

(2) 数据角度: 如CLIP、ALBEF等从web上收集到的图文对上进行预训练，目前用有噪声的网络文本训练效果是次优的。

为此，作者提出了BLIP: 引导语言图像预训练，以实现统一的视觉语言理解和生成。BLIP是一个新的VLP框架，与现有方法相比，它可以实现更广泛的下游任务。它分别从模型和数据角度有两个贡献:

(1) 多模态编码器-解码器混合（MED）：一种用于有效多任务预训练和灵活迁移学习的新模型架构。MED可以作为单模态编码器、基于图像的文本编码器或基于图像的文本解码器工作。该模型与三个视觉语言目标联合预训练：图像文本对比学习、图像文本匹配和图像条件语言建模。

(2) CapFilter：一种新的

了解本专栏

超级会员免费看

深圳季连AIgraphX

关注

33
点赞
踩
23

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

深圳季连AIgraphX 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。