MiniGPT-4:Enhancing Vision-language Understanding with Advanced Large Language Models

will-wil

已于 2024-02-28 21:04:21 修改

阅读量451

点赞数 5

分类专栏：论文阅读文章标签： python 人工智能开发语言

于 2024-02-28 21:00:00 首次发布

本文链接：https://blog.csdn.net/yangyanbao8389/article/details/136356104

版权

10 篇文章 0 订阅

订阅专栏

相比ChatGPT，GPT-4展示出了非凡的多模态能力，它可以利用手稿生成网站并且还能够识别出图片中的幽默元素，这是之前的模型难以实现的
猜测是因为更先进的LLM模型，那能否利用目前比较先进的大型LLM进行微调从而尽可能达到GPT-4的性能呢，因此本文提出了MiniGPT-4模型
文章的发现：
- 通过对齐视觉特征和LLM特征，能得到跟GPT-4演示类似的效果
- 仅仅一个映射层就可以有效链接视觉和文本特征空间，同时减少了训练参数
- 仅用公开数据集对齐视觉模型和LLM模型容易生成不自然的输出，高质量数据能有效提升模型结果的可用性

模型整体框架：

线性层连接冻结的Image encoder、Q-Former模块和冻结的LLM

训练分为两阶段，大规模公开数据集对齐训练和小数据集微调训练

First pretraining stage
- 训练数据：CC、SBU和LAION
- 训练流程：线性映射层输出特征作为soft prompt传入LLM模型，输出对应的target文本，其中vision encoder和LLM均冻结只训练映射层
- 发现的问题：训练后模型得到了丰富的知识，对于query能输出合理的回答，但是会产生重复、不相关、碎片化的文本
Second-stage finetuning
- 训练数据构造：
  - 精挑5000张图片，一阶段训练的模型生成，保证得到图像详细的描述

- - 人工过滤纠正，保证数据质量，最终得到3500张图片
- 训练流程：整理prompt set，例如“Describe this image in detail” 等，随机采样prompt填入下面模版训练，模型全量训练

模型的不足
- 语言幻觉：继承至LLM模型，会捏造事实，可通过添加更多高质量训练数据、更优LLM改善
- 感知能力不足：视觉感知能力有限，难以识别图片详细信息和区分空间位置，训练数据角度、Q-former抽取信息丢失、单一映射层对齐能力不足

VisualGLM-6B

关注

专栏目录