MiniGPT-4:Enhancing Vision-language Understanding with Advanced Large Language Models

论文:https://arxiv.org/abs/2304.10592
代码:GitHub - Vision-CAIR/MiniGPT-4: Open-sourced codes for MiniGPT-4 and MiniGPT-v2 (https://minigpt-4.github.io, https://minigpt-v2.github.io/)

demo:https://huggingface.co/spaces/Vision-CAIR/minigpt4

引言:


  • 相比ChatGPT,GPT-4展示出了非凡的多模态能力,它可以利用手稿生成网站并且还能够识别出图片中的幽默元素,这是之前的模型难以实现的

  • 猜测是因为更先进的LLM模型,那能否利用目前比较先进的大型LLM进行微调从而尽可能达到GPT-4的性能呢,因此本文提出了MiniGPT-4模型

  • 文章的发现:

    • 通过对齐视觉特征和LLM特征,能得到跟GPT-4演示类似的效果

    • 仅仅一个映射层就可以有效链接视觉和文本特征空间,同时减少了训练参数

    • 仅用公开数据集对齐视觉模型和LLM模型容易生成不自然的输出,高质量数据能有效提升模型结果的可用性

模型结构:


模型整体框架:

线性层连接冻结的Image encoder、Q-Former模块和冻结的LLM

训练分为两阶段,大规模公开数据集对齐训练和小数据集微调训练

  • First pretraining stage

    • 训练数据:CC、SBU和LAION

    • 训练流程:线性映射层输出特征作为soft prompt传入LLM模型,输出对应的target文本,其中vision encoder和LLM均冻结只训练映射层

    • 发现的问题:训练后模型得到了丰富的知识,对于query能输出合理的回答,但是会产生重复、不相关、碎片化的文本

  • Second-stage finetuning

    • 训练数据构造:

      • 精挑5000张图片,一阶段训练的模型生成,保证得到图像详细的描述

      • 对生成的图像描述,采用ChatGPT进行润色纠正

      • 人工过滤纠正,保证数据质量,最终得到3500张图片

    • 训练流程:整理prompt set,例如“Describe this image in detail” 等,随机采样prompt填入下面模版训练,模型全量训练

  • 模型的不足

    • 语言幻觉:继承至LLM模型,会捏造事实,可通过添加更多高质量训练数据、更优LLM改善

    • 感知能力不足:视觉感知能力有限,难以识别图片详细信息和区分空间位置,训练数据角度、Q-former抽取信息丢失、单一映射层对齐能力不足

模型示例:


VisualGLM-6B

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值