论文:https://arxiv.org/pdf/2305.06500v1.pdf
代码:https://github.com/salesforce/LAVIS/tree/main/projects/instructblip
引言:
-
由于来自不同领域的额外视觉输入,视觉-语言任务在性质上更加多样化,构建一个能够推广到广泛的视觉-语言任务的统一模型更具挑战性
-
本文介绍了一个名为
InstructBLIP
的视觉语言指令调整框架,该框架通过一个统一的自然语言接口,使通用模型能够解决广泛的视觉任务 -
文章贡献:
-
对视觉语言指令调整进行了全面系统的研究,将26个公开数据集转换成指令调整格式并分成11个任务类别
-
提出了一种指令感知的
-