论文:https://arxiv.org/abs/2304.10592
代码:GitHub - Vision-CAIR/MiniGPT-4: Open-sourced codes for MiniGPT-4 and MiniGPT-v2 (https://minigpt-4.github.io, https://minigpt-v2.github.io/)
demo:https://huggingface.co/spaces/Vision-CAIR/minigpt4
引言:
-
相比ChatGPT,GPT-4展示出了非凡的多模态能力,它可以利用手稿生成网站并且还能够识别出图片中的幽默元素,这是之前的模型难以实现的
-
猜测是因为更先进的LLM模型,那能否利用目前比较先进的大型LLM进行微调从而尽可能达到GPT-4的性能呢,因此本文提出了MiniGPT-4模型
-
文章的发现:
-
通过对齐视觉特征和LLM特征,能得到跟GPT-4演示类似的效果
-
仅仅一个映射层就可以有效链接视觉和文本特征空间,同时减少了训练参数
-
仅用公开数据集对齐视觉模型和LLM模型容易生成不自然的输出,高质量数据能有效提升模型结果的可用性
-
模型结构:
模型整体框架:
线性层连接冻结的Image encoder、Q-Former模块和冻结的LLM
训练分为两阶段,大规模公开数据集对齐训练和小数据集微调训练
-
First pretraining stage
-
训练数据:CC、SBU和LAION
-
训练流程:线性映射层输出特征作为soft prompt传入LLM模型,输出对应的target文本,其中vision encoder和LLM均冻结只训练映射层
-
发现的问题:训练后模型得到了丰富的知识,对于query能输出合理的回答,但是会产生重复、不相关、碎片化的文本
-
-
Second-stage finetuning
-
训练数据构造:
-
精挑5000张图片,一阶段训练的模型生成,保证得到图像详细的描述
-
-
-
-
-
对生成的图像描述,采用ChatGPT进行润色纠正
-
-
-
-
-
人工过滤纠正,保证数据质量,最终得到3500张图片
-
-
训练流程:整理prompt set,例如“Describe this image in detail” 等,随机采样prompt填入下面模版训练,模型全量训练
-
-
模型的不足
-
语言幻觉:继承至LLM模型,会捏造事实,可通过添加更多高质量训练数据、更优LLM改善
-
感知能力不足:视觉感知能力有限,难以识别图片详细信息和区分空间位置,训练数据角度、Q-former抽取信息丢失、单一映射层对齐能力不足
-