别再纠结 GPT-4 了,最强平替 MiniGPT4 开源了,完全免费!

来源量子位 | 公众号 QbitAI

GPT-4识图功能迟迟不开放,终于有人忍不住自己动手做了一个。

MiniGPT-4来了,Demo开放在线可玩。

传一张海鲜大餐照片上去,就能直接获得菜谱。

7793d6f8d17624cc63b0567792688d75.gif

传一张商品效果图,就可以让AI写一篇带货文案。

710b8d4274206cf57ad433569e6246b3.gif

手绘一个网页,可以给出对应的HTML代码4f4dbcb68d010e6fda58c4f2a212174b.gif

除了生产力拉满,也支持根据常识推理图上内容是否合理、解释表情包为什么好笑,以及看截图找电影等娱乐玩法。

e45261f37db92533fab5d43671786750.png

可以说,GPT-4发布时展示过的功能,MiniGPT-4基本也都有了。

这下网友直接把Demo服务器挤爆,开发团队连开4台备用服务器,都有几十人在排队。

295be5cbf36a027b2ef77aeea9e0ff2c.png

不等OpenAI了,现在就能玩

除了研究团队给出的示例,网友也用MiniGPT-4玩出了各种花样

有人上传自己画的画,让AI评价评价。

9afde0d93d6f636a595fada218c7fd32.png

有人上传一张从车道拍摄的飞机坠毁瞬间,让MiniGPT-4尽可能详细地描述,并思考自动驾驶AI能不能理解这个场面。

4348b795a30bdf0b7c0a9acce680c2be.png

做到这么好的效果,MiniGPT-4实现起来却并不复杂。

把图像编码器与开源语言模型Vicuna(小羊驼)整合起来,并且冻结了两者的大部分参数,只需要训练很少一部分。

传统预训练阶段,使用4张A100在10个小时内就可完成,此时训练出来的Vicuna已能够理解图像,但生成能力受到很大影响。

为解决这个问题,团队让MiniGPT-4与ChatGPT合作创建了3500个图像文本的高质量数据集,也一并开源。

用新的数据集微调可以显著提高模型的生成可靠性和整体可用性,而且计算效率很高,使用单个A100只需要7分钟。

19eed415993215c7f72ed03e2328a95a.png

并且团队正在准备一个更轻量级的版本,部署起来只需要23GB显存。

也就是消费级显卡中拥有24GB显存的3090或4090就可以本地运行了。

MiniGPT-4开发团队来自KAUST(沙特阿卜杜拉国王科技大学),包括4位华人成员和他们的导师 Mohamed Elhoseiny。

99527d0a5cc2a1abc475c15279e2cec6.png

两位正在读博的共同一作还在GitHub页面上特别标注正在找工作。

有意向的公司要抓紧抢人了~

在线Demo:https://minigpt-4.github.io

开源代码:https://github.com/Vision-CAIR/MiniGPT-4

论文:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

推荐阅读:
世界的真实格局分析,地球人类社会底层运行原理
不是你需要中台,而是一名合格的架构师(附各大厂中台建设PPT)

企业IT技术架构规划方案

论数字化转型——转什么,如何转?

华为干部与人才发展手册(附PPT)

企业10大管理流程图,数字化转型从业者必备!

【中台实践】华为大数据中台架构分享.pdf

华为的数字化转型方法论

华为如何实施数字化转型(附PPT)

超详细280页Docker实战文档!开放下载

华为大数据解决方案(PPT)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值