多模态大模型LLaVA1.0 视觉指令微调

论文标题:Visual instruction tuning

论文链接:https://arxiv.org/abs/2304.08485


目录

01 摘要翻译

02 LLaVA的结构

03 GPT 辅助视觉指令数据生成

04 训练过程


01 摘要翻译

使用机器生成的指令跟随数据(instruction-following data)对大型语言模型(LLM)进行指令调整,已被证明可以提高新任务的 zero-shot 能力,但这一想法在多模态领域的探索较少。我们首次尝试使用纯语言 GPT-4 生成多模态语言图像指令跟踪数据。通过对这些生成的数据进行指令调整,我们介绍了 LLaVA:大型语言和视觉助手,这是一种端到端训练有素的大型多模态模型,它将视觉编码器和 LLM 连接起来,用于通用的视觉和语言理解。为了促进未来的视觉指令跟踪研究,我们构建了两个评估基准,其中包含多种具有挑战性的面向应用的任务。我们的实验表明,LLaVA 展示了令人印象深刻的多模态聊天能力,有时在未见图像/指令上表现出多模态 GPT-4 的行为,在合成的多模态指令跟随数据集上,LLaVA 与 GPT-4 相比获得了 85.1% 的相对分数。在对科学质量保证进行微调后,LLaVA 和 GPT-4 的协同作用达到了 92.53% 的新的一流准确率。我们公开了 GPT-4 生成的视觉指令调整数据、我们的模型和代码。


02 LLaVA的结构

LLaVA 的架构设计极为精巧简洁。具体而言,输入的图像 $X_v$ 先由视觉编码器进行处理,得到视觉特征 $Z_v$;紧接着,视觉特征 $Z_v$ 被送入单层线性投影层,处理后得到 $H_v$;此后,$H_v$ 将和用户的输入文本 $X_q$ 的嵌入 $H_q$ 拼接在一起输入语言模型,最后得到针对图像的回答 $X_a$

在部件选择上,对于 LLM 部分,它选定了 Vicuna;而视觉编码器层面,则采用了 CLIP:ViT-L/14。

LLaVA模型结构

03 GPT 辅助视觉指令数据生成

LLaVA论文的一大关键就是其利用GPT-4生成指令跟随数据。因为作者使用的是纯文本GPT-4,对于每一张图片,作者使用了两种符号表示用来描述这张图片,(1)Captions:如下图所示,5句话分别从不同角度描述右上角的图片;(2)Boxes:如下图所示,通过类似目标检测框的文本描述,定位场景中的物体。

通过这种符号表示法,可以将图像编码为 LLM 可识别序列,然后输入GPT-4以构造训练集。作者利用这种方式构造了三种类型的数据:

  • Conversation。我们设计了一段对话,对话内容是 Assistant 和一个就这张照片提问的人之间的对话。回答者的语气就像 Assistant 看到图片并回答问题一样。我们会就图片的视觉内容提出一系列不同的问题,包括物体类型、物体数量、物体动作、物体位置、物体之间的相对位置等。只有有明确答案的问题才会被考虑。
  • Detailed description。为了对图像进行丰富而全面的描述,我们创建了一个具有此类意图的问题列表。我们会提示 GPT-4,然后对列表进行整理。对于每张图片,我们从列表中随机抽取一个问题,要求 GPT-4 生成详细描述。
  • Complex reasoning。上述两类问题主要针对视觉内容本身,在此基础上我们进一步创建深入的推理问题。答案通常需要按照严密的逻辑进行逐步推理。

最终,作者用 COCO images数据集构建了158K 个独特的语言图像指令跟踪样本,包括 58K 个对话样本(Conversation)、23K 个详细描述样本(Detailed description)和 77K 个复杂推理(Complex reasoning)样本。


04 训练过程

训练分为两个阶段,训练的设备为8×A100s,LLM使用Vicuna进行初始化:

第 1 阶段:特征对齐的预训练。作者将 CC3M 筛选为 595K 个图像-文本对,然后转换成单轮的指令跟随数据。此过程仅训练投影层。进行了 1 个epoch的预训练,学习率为 2e-3,批量大小为 128。

2 阶段:端到端的微调。此阶段同时更新投影层和LLM。作者训练了两种版本:

  • 多模态聊天机器人。使用的数据集为COCO images数据集构建的158K个独特的语言图像指令跟踪样本。此版本进行了 3 个epochs的微调,学习率为 2e-5,批量大小为 32。

  • ScienceQA。作者在 ScienceQA 基准上也进行了研究,这是第一个大规模多模态科学问题数据集,该数据集为答案注释了详细的讲座和解释。


未完待续...

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

未来知行

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值