MiniGPT-4论文阅读+Colab部署

Czi.

已于 2024-07-22 00:51:27 修改

阅读量731

点赞数 8

文章标签：人工智能

于 2024-07-14 20:10:39 首次发布

本文链接：https://blog.csdn.net/weixin_46460463/article/details/140421197

版权

MiniGPT-4学习

1.Colab上部署MiniGPT-4
2.论文摘要
3.模型架构
4.模型训练
5.总结

1.Colab上部署MiniGPT-4

代码：
https://github.com/Czi24/Awesome-MLLM-LLM-Colab/tree/master/MLLM/MiniGPT-4-colab

2.论文摘要

最近的 GPT-4 展示了非凡的多模式能力，例如直接从手写文本生成网站以及识别图像中的幽默元素。这些特征在以前的视觉语言模型中很少观察到。我们认为 GPT-4 先进的多模态生成能力的主要原因在于使用了更先进的大语言模型（LLM）。为了研究这一现象，我们提出了 MiniGPT-4，它仅使用一个投影层将冻结的视觉编码器与冻结的 LLM、Vicuna 对齐。我们的研究结果表明，MiniGPT-4 拥有许多与 GPT-4 类似的功能，例如详细的图像描述生成和根据手写草稿创建网站。此外，我们还观察到 MiniGPT-4 中的其他新兴功能，包括受给定图像启发编写故事和诗歌、为图像中显示的问题提供解决方案、教用户如何根据食物照片烹饪等。在我们的实验中，我们发现仅对原始图像-文本对进行预训练可能会产生缺乏连贯性的不自然语言输出，包括重复和支离破碎的句子。为了解决这个问题，我们在第二阶段策划了一个高质量、对齐良好的数据集，以使用对话模板来微调我们的模型。事实证明，这一步骤对于增强模型的生成可靠性和整体可用性至关重要。值得注意的是，我们的模型计算效率很高，因为我们只利用大约 500 万个对齐的图像文本对来训练投影层。

3.模型架构

ViT & Q-Former + Linear + Vicuna

MiniGPT-4 由一个带有预训练 ViT 和 Q-Former 的视觉编码器、一个线性投影层和一个高级 Vicuna 大语言模型组成。 MiniGPT-4只需要训练线性层即可将视觉特征与Vicuna对齐：

4.模型训练

Stage1：
5M的图文对

Stage2:
3500张高质量的指令数据

从Conceptual Caption datase中筛选5000张图片，利用第一阶段的模型输出回答，第一阶段自动生成的图像描述包含噪音或不连贯的描述，如重复的单词或句子，支离破碎的句子，或不相关的内容。
通过ChatGPT重构数据，最终得到3500张图片
系统提示：

Fix the error in the given paragraph. Remove any repeating sentences, meaningless characters, not English sentences, and so on. Remove unnecessary repetition. Rewrite any incomplete sentences. Return directly the results without explanation. Return directly the input paragraph if it is already correct without explanation.

5.总结

幻觉问题：long caption的幻觉比short caption 严重
空间理解能力不足

Czi.

关注

8
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
MiniGPT-4论文阅读+Colab部署

代码：https://github.com/Czi24/Awesome-MLLM-LLM-Colab/blob/master/MLLM/MiniGPT-4-colab/MiniGPT-4.md
复制链接

扫一扫