论文阅读——llava

Visual Instruction Tuning

LLaVA

指令智能体分为两类:端到端的,通过LangChain[1]/LLM[35]协调各种模型的系统。

数据集生成用GPT辅助生成的,具体不写了。

模型结构:

input image Xv

LLM:Vicuna

visual encoder:pre-trained CLIP visual encoder ViT-L/14

W是为了和词向量一个维度(we apply a trainable projection matrix W to convert Zv into language embedding tokens Hv, which have the same dimensionality as the word embedding space in the language model)

这个线性映射很简单,也可以设计复杂一些,比如gated cross-attention in Flamingo [2] and Q-former in BLIP-2。

Training:

给一张图片有很多问答对:

这就使得多模态指令的统一格式。使用LLM的原始自回归训练目标,对LLM预测的tokens执行指令调整。

两阶段训练:

Stage 1: Pre-training for Feature Alignment.

对于图像Xv,随机采样问题Xq,这是要求assistant简要描述图像的语言指令。GT答案Xa是原始标题。

保持视觉编码器和LLM权重冻结,并仅在可训练参数θ=W(投影矩阵)

Stage 2: Fine-tuning End-to-End.

保持视觉编码器权重冻结,并继续更新LLaVA中投影层和LLM的预训练权重

实验:

  • 8
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值