InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

will-wil

已于 2024-02-28 21:03:50 修改

阅读量805

点赞数 4

分类专栏：论文阅读文章标签：语言模型人工智能深度学习

于 2024-02-28 20:47:12 首次发布

本文链接：https://blog.csdn.net/yangyanbao8389/article/details/136355836

版权

论文：https://arxiv.org/pdf/2305.06500v1.pdf
代码：https://github.com/salesforce/LAVIS/tree/main/projects/instructblip

引言：

由于来自不同领域的额外视觉输入，视觉-语言任务在性质上更加多样化，构建一个能够推广到广泛的视觉-语言任务的统一模型更具挑战性
本文介绍了一个名为InstructBLIP的视觉语言指令调整框架，该框架通过一个统一的自然语言接口，使通用模型能够解决广泛的视觉任务
文章贡献：
- 对视觉语言指令调整进行了全面系统的研究，将26个公开数据集转换成指令调整格式并分成11个任务类别
- 提出了一种指令感知的

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

will-wil

关注关注

4
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

VLM 系列——Instruct BLIP——论文解读

TigerZ*的博客

01-22

706

本文主要介绍Instruct BLIP,是一个多模态视觉-文本大语言模型，隶属BLIP系列第三篇，可以完成：图像描述、视觉问答、名画名人等识别（问答、描述）。支持单幅图片输入（作为第一个输入），多轮文本对话。（不支持图文交错输入、写代码、视觉定位、JSON mode等。）构造一个指令数据集，整体架构沿用BLIP2，在Q-former中多加入了文本prompt token来和图片进行交互。只训练q-former，在多个数据集上的zero-shot获得sota.

【大语言视觉助手+LLaVA1.5】23.10.LLaVA-1.5改善后视觉语言大模型: Improved Baselines with Visual Instruction Tuning

进一寸有一寸的欢喜

03-21

3381

23.10 LLaVA1.5的改进： 1. 结构上，将视觉特征提取器从 CLIP-vit-L-14 (224x224图像输入)改为了CLIP-vit-L/336(将真实图像resize到**336x336**再输入编码器) 2. 结构上，视觉特征从线性映射（单个神经元），改进为多层告感知机（MLP） 3. 数据上，大量提高数据量，特别是视觉微调 158K到了560K。。 4. 训练上，LLaVA1.5可以使用Lora微调

参与评论您还未登录，请先登录后发表或查看评论

论文笔记--InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

weixin_38124427的博客

12-07

1453

InstructBLIP-基于指令微调的BLIP系列多模态模型

《InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning》速读

m0_60388871的博客

03-03

697

由于不同数据集的规模差异巨大（从几千到几十万样本不等），简单均匀混合会导致模型对小数据集过拟合、对大数据集欠拟合。多任务学习（multitask learning）**在视觉-语言任务中的效果，证明指令调整是提升零样本泛化能力的关键。，覆盖11种任务类别，并将其转化为统一的指令调整格式。这是迄今为止视觉-语言指令调整研究中使用的最广泛的数据集集合。，通过将文本指令同时输入到Q-Former中，使其能够根据具体指令动态调整提取的视觉特征。传统的视觉-语言模型（如BLIP-2）在提取视觉特征时采用的是。

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning【翻译】

HYD1396395176的博客

05-24

781

在预训练和指令调优管道的驱动下，出现了可以解决各种语言领域任务的通用语言模型。然而，由于额外的视觉输入会增加任务差异，因此构建通用视觉语言模型具有挑战性。尽管视觉语言预训练已得到广泛研究，但视觉语言指令调优的探索相对较少。在本文中，我们基于预训练的 BLIP-2 模型对视觉语言指令调优进行了系统全面的研究。我们收集了各种 26 个公开可用的数据集，将它们转换为指令调优格式，并将它们分为两个集群，用于保持指令调优和保持零样本评估。

[阅读笔记10][instructBLIP]Towards General-purpose Vision-Language Models with Instruction Tuning

Cloth的博客

04-15

370

具体而言，像OKVQA这种开放式文本生成的数据集，提升采样概率，对于A-OKVQA这种以选择题为主的数据集降低采样概率。这里的实验类似谷歌FLAN中的实验，以BLIP2为基础，测试了BLIP2+多任务学习和BLIP2+指令微调的结果，显然指令微调的zero-shot效果要更好。instructBLIP这篇论文也是ALBEF，BLIP，BLIP2团队的工作，之前几篇的一作变成通讯和共一了，于23年9月发表。一共使用了26个公开数据集，涉及11项任务，其中标黄色的为微调数据集，其余为测试数据集。

RT-2论文翻译: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

机器学习实战

01-26

1159

在广泛的Web规模数据集上预训练的高容量模型为各种下游任务提供了有效且强大的平台：大型语言模型不仅可以实现流畅的文本生成（Anil等，2023；Brohan等，2022；OpenAI，2023），还能实现新兴的问题解决（Cobbe等，2021；Lewkowycz等，2022；Polu等，2022）以及散文（Brown等，2020；OpenAI，2023）和代码（Chen等，2021）的创造性生成，而视觉语言模型则实现了开放词汇的视觉识别（Kirillov等，2023；Minderer等，2022；

NeurIPS 2023 | InstructBLIP：指令微调训练通用视觉-语言模型

阿木寺的博客

10-04

1341

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达点击进入—>【多模态和Transformer】交流群在CVer微信公众号后台回复：InstructBLIP，可以下载本论文pdf和代码，学起来！转载自：极市平台 | 作者：科技猛兽导读研究如何在视觉语言任务上进行指令微调，使得训练出的模型可以解决一系列的视觉任务。本文目录1 InstructBLIP: 指令微调训练通用...

【BLIP/BLIP2/InstructBLIP】一篇文章快速了解BLIP系列（附代码讲解说明）

热门推荐

零碎@流年絮语的博客

10-01

1万+

这样的好处在于对于同一张图片，根据不同的instruction，我们可以得到基于instruction偏好更强的视觉特征，同时对于两个不一样的图片，基于instruction内嵌的通用知识，可以使得模型有更好的知识迁移效果。Q-Former的文本输入，保证了Query提取到的特征更加的精炼。使用BLIP-2模型w/ViT-g和FlanT5XXL的指示零样本图像到文本生成的精选示例，其中显示了广泛的功能，包括视觉对话、视觉知识推理、视觉共感推理、故事讲述、个性化图像到文本的生成等。其他与BLIP2基本一样。

多模态：InstructBLIP

Hanze的博客

05-14

2047

由于作者混合多个数据集，每个数据集的大小不同，如果采用均匀采样，可能会造成大数据集underfitting，小数据集overfitting。以前的方法大多要依靠LLM的生成能力，LLM在微调text- only instruction比微调Vision- language 的表现要更让人满意。作者表示，与nlp任务不同，多模态任务由于引入额外的视觉输入，它的任务更加多样化，这似的联合多个模型是一个有挑战性的工作。联合上面的数据集，为不同的任务设置了不同的prompt template。

【学习周报】

zzPaulmn的博客

06-17

442

而在InstructBLIP中，指令文本不仅作为输入给到LLM，同时也给到了QFormer，这样做的好处是：指令通过Q-Former的自注意力层与查询进行交互，影响查询提取与指令所描述的任务更相关的图像特征。根据BLIP-2论文的方法，Q-Former已经分成两个阶段进行了预训练，通过预训练，它学会了提取可以被LLM消化的文本对齐的视觉特征，进而在推理过程中，通过将指令附加在视觉提示后引导LLM执行特定的任务。这些查询的输出特征随后被映射为输入视觉提示，提供给冻结的LLM。

基于LLMs的多模态大模型（MiniGPT-4，LLaVA，mPLUG-Owl，InstuctBLIP，X-LLM）

nakaizura

05-26

5369

前一篇博文的最后整理到KOSMOS-1，KOSMOS-1已经开始使用Unnatural Instruction进行微调，其能更好的服从用户需求，本篇博文将继续整理一堆最近出的文章们，包括粘合BLIP-2和Vicuna的MiniGPT-4模型，和一些使用Instruction Tuning来训练的文章们。

[EAI-005] 具身视觉语言规划（EVLP）数据集基准汇总

全性保真，不以物累形。

11-19

3550

解决 EVLP 任务通常需要使用仿真环境和数据集。仿真平台和数据集有助于复现和评估具身智能系统。

每日学术速递5.14

与君共勉，一起学习

05-16

694

标题：CLIP 训练的逆比例定律作者：Xianhang Li, Zeyu Wang, Cihang Xie文章链接：https://arxiv.org/abs/2305.07017项目代码：https://github.com/UCSC-VLAA/CLIPA摘要： CLIP 是第一个连接图像和文本的基础模型，最近在计算机视觉领域取得了许多突破。然而，其相关的培训成本高得令人望而却步，对其广泛探索构成了重大障碍。在本文中，我们提出了一个令人惊讶的发现，即 CLIP 训练存在逆比例定律，即使用的图

【大模型系列】统一图文理解与生成(BLIP/BLIPv2/InstructBLIP)

kabuto_hui的博客

03-16

4077

问题一：目前VLP（Vision-Language Pre-training）数据大多来自于网络爬取，如CLIP。其中的caption包含很多噪声，不是一个理想的监督来源；问题二：在以往的VLP框架中，仅在理解任务或者生成任务方面表现出色，很少有可以兼顾的模型。针对问题一：提出一种bootstrapping caption的方案来“提纯”带噪声的网络爬取数据，从而提升多模态模型的能力；针对问题二：提出一种新的VLP框架BLIP统一视觉语言理解和生成任务，比现有的方法更适应广泛的下游任务；

深入解析BLIP/BLIP-2模型跨模态学习的核心原理

hello.reader

10-11

1231

BLIP（Bootstrapping Language-Image Pre-training）模型是一个视觉-语言任务的预训练模型，旨在通过自监督学习技术同时处理视觉和文本信息。它首次在2021年提出，旨在解决以往视觉-语言模型中信息融合效率不高的问题。BLIP的主要创新之处在于它能够通过图像-文本匹配、图像描述生成和视觉问答等任务，进行多模态数据的学习，并极大提升视觉-语言相关任务的性能。BLIP-2是BLIP模型的升级版，主要优化了跨模态学习的效率。

高压开关柜局部放电信号分析系统

最新发布

m0_61057267的博客

04-28

1584

这个项目是我在2025年实现的高压开关柜局部放电信号分析系统，目的是通过采集分析局部放电信号，判断设备的工作状态和潜在故障。系统包含从信号模拟生成、特征提取、到深度学习模型训练的全流程，最终可自动生成分析报告。

faster r-cnn: towards real-time object detection with region proposal networks

06-28

### 回答1： Faster R-CNN是一种基于区域建议网络（Region Proposal Networks，RPN）的物体检测算法，旨在实现实时物体检测。它通过预测每个区域是否含有物体来生成候选框，并使用卷积神经网络（CNN）来确定候选框中的物体类别。Faster R-CNN在提高检测精度的同时，也显著提高了检测速度。 ### 回答2：在计算机视觉领域中，目标检测一直是热门研究的方向之一。近年来，基于深度学习的目标检测方法已经取得了显著的进展，并且在许多实际应用中得到了广泛的应用。其中，Faster R-CNN 是一种基于区域建议网络（Region Proposal Networks，RPN）的目标检测方法，在检测准确率和速度之间取得了很好的平衡，能够实现实时目标检测。 Faster R-CNN 的基本框架由两个模块组成：区域建议网络（RPN）和检测模块。RPN 主要负责生成候选目标框，而检测模块则利用这些候选框完成目标检测任务。具体来说，RPN 首先在原始图像上以多个尺度的滑动窗口为基础，使用卷积网络获取特征图。然后，在特征图上应用一个小型网络来预测每个位置是否存在目标，以及每个位置的目标边界框的坐标偏移量。最终，RPN 根据预测得分和位置偏移量来选择一部分具有潜在对象的区域，然后将这些区域作为候选框送入检测模块。检测模块的主要任务是使用候选框来检测图像中的目标类别和位置。具体来说，该模块首先通过将每个候选框映射回原始图像并使用 RoI Pooling 算法来获取固定大小的特征向量。然后，使用全连接神经网络对这些特征向量进行分类和回归，以获得每个框的目标类别和精确位置。相比于传统的目标检测方法，Faster R-CNN 具有以下优点：首先，通过使用 RPN 可以自动生成候选框，避免了手动设计和选择的过程；其次，通过共享卷积网络可以大大减少计算量，提高效率；最后，Faster R-CNN 在准确率和速度之间取得了很好的平衡，可以实现实时目标检测。总之，Faster R-CNN 是一种高效、准确的目标检测方法，是深度学习在计算机视觉领域中的重要应用之一。在未来，随着计算机视觉技术的进一步发展，Faster R-CNN 这类基于深度学习的目标检测方法将会得到更广泛的应用。 ### 回答3： Faster R-CNN是一种结合了深度学习和传统目标检测算法的新型目标检测方法，旨在提高目标检测速度和准确率。Faster R-CNN采用了Region Proposal Network（RPN）来生成候选区域，并通过R-CNN网络对候选区域进行分类和定位。 RPN是一种全卷积神经网络，用于在图像中生成潜在的候选区域。RPN通常在卷积特征图上滑动，对每个位置预测k个候选区域和其对应的置信度得分。这样，对于输入图像，在不同大小和宽高比的Anchor上预测候选框，可以在计算上更有效率。 R-CNN网络利用卷积特征图作为输入，对RPN生成的候选区域进行分类和精确定位。与以前的目标检测方法相比，Faster R-CNN使用了共享卷积特征，使得整个检测网络可以端到端地进行训练和优化，缩短了训练时间，同时也更便于理解和改进。 Faster R-CNN不仅具有较高的准确性，还具有较快的检测速度。在各种基准测试中，Faster R-CNN与其他目标检测算法相比，都取得了优异的性能表现。总之，Faster R-CNN将目标检测引入了一个新的阶段，为实时目标检测提供了一个良好的基础。