多模态GPT-4大模型的发布,让很多人看到了AI人工智能的魅力,特别是ChatGPT的流行,让很多人开始关注人工智能。虽然ChatGPT可以通过一些魔法进行使用,但是GPT-4多模态大模型,openai却没有完全免费开放给个人,要想使用GPT-4,要么通过官方的邀请,要么是升级到付费账号。但就算付费,一些地区也无法进行相关服务的购买。
GPT-4发布时,工程师一个手绘网页,传递给GPT-4时,模型会自动进行图片的识别,然后输出搭建整个网页的代码,强大的多模型模型吊足了大家的胃口。开源的MiniGPT-4多模态模型,让我们提前可以尝试一下GPT-4的魅力。
MiniGPT-4的架构由带有预训练 ViT模型编码器和Q-Former,一个单一的线性投影层,一个高级的 Vicuna 大语言模型
MiniGPT-4 旨在将来自预训练视觉编码器的视觉信息与先进的大语言模型(LLM)结合。具体来说,利用 Vicuna作为语言解码器,它是基于 LLaMA 构建,可以执行各种复杂的语言任务。对于视觉感知,使用与BLIP-2中相同的视觉编码器,一个ViT主干与他们预训练的