BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Genera

最新推荐文章于 2024-04-25 16:48:33 发布

wzj1212123

最新推荐文章于 2024-04-25 16:48:33 发布

阅读量153

点赞数 1

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wzj1212123/article/details/134927051

版权

论文《BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation》阅读

论文概况
Introduction
Method
总结

Unified Vision-Language Understanding and Generation》阅读)

论文概况

本文是2022年ICML上的一篇多模态论文，在CLIP基础上进行应用层面的改进，扩大了模型应用范围。

Introduction

作者提出问题

大多数现有的预训练模型仅在基于理解的任务或基于生成的任务中表现出色
此外，通过使用从网络收集的有噪声的图像-文本对放大数据集，在很大程度上提高了性能，这是次优的监督来源。

对于上述问题，作者提出了BLIP模型
(1) 通过一种新的VLP框架BLIP，它可以灵活地转换到视觉语言理解和生成任务
(2) BLIP通过生成字幕进行降噪

Method

在这里插入图片描述

A.模型结构

单模态编码器：分别编码图像和文本。这部分与CLIP基本一致，将编码后的文本与图片进行对比学习，绑定对应的图像文本对。

基于图像的文本编码器：通过在文本编码器的每个transformer块的自注意力(SA)层和前馈网络(FFN)之间插入一个额外的跨注意力层(CA)来注入视觉信息。

基于图像的文本解码器：用因果自注意力层取代了基于图像的文本编码器中的双向自注意力层。除了self-att层之外，各个结构共享参数。

B.预训练目标

Image-Text Contrastive Loss (ITC)：集成 ALBEF 中的 ITC 损失。通过鼓励正面图像文本对具有相似的表示，负面图像文本相反，对齐视觉变换器和文本变换器的特征空间。

Image-Text Matching Loss (ITM)：旨在学习图像-文本多模态表示，捕捉视觉和语言之间的细粒度对齐。ITM是一个二分类任务，给定其多模态特征，其中模型使用ITM头（线性层）来预测图像文本对是正（匹配）还是负（不匹配)。

Language Modeling Loss (LM)：旨在生成给定图像的文本描述。优化交叉熵损失，该损失训练模型以自回归方式最大化文本的可能性。

C.CapFilt

因为图像文本对中包含噪声，对于模型训练影响很大，因此我们采用生成器与判别器的方式来进行数据提纯。
在这里插入图片描述数据D中包含网络噪声图文和人工精准图文，我们利用LM来生成对应图片的文本描述，再利用ITC与ITM来判别文本是否符合图片，最终数据集被提纯。

D.结果

在这里插入图片描述

在这里插入图片描述

总结

BLIP设计新的模型结构，加上数据清洗，可以提高下游任务性能，是一种通用的多模态结构和训练方法。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

wzj1212123 CSDN认证博客专家 CSDN认证企业博客

码龄5年

36: 原创

51万+: 周排名

4万+: 总排名

2万+: 访问

: 等级

473: 积分

159: 粉丝

82: 获赞

15: 评论

148: 收藏

私信

关注

热门文章

最新评论

论文阅读《Co-clustering for Federated Recommender System》
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读《No Prejudice! Fair Federated Graph Neural Networks for Personalized Recommendation》
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Semi-decentralized Federated Ego Graph Learning for Recommendation
普通网友: 写的很好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
论文阅读《FEDERATED COLLABORATIVE FILTERING FOR PRIVACY-PRESERVING PERSONALIZED RECOMMENDATION SYSTEM》
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读《Vision-Language Pre-Training with Triple Contrastive Learning》
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。