Fuyu-8B A Multimodal Architecture for AI Agents

Fuyu-8B: A Multimodal Architecture for AI Agents

Blog: https://www.adept.ai/blog/fuyu-8b

TL; DR:无视觉编码器和 adapter,纯解码器结构的多模态大模型。


Adept 是一家做 Copilot 创业的公司,要想高效地帮助用户,必须要准确地理解用户正在干什么,这就需要准确地理解屏幕上的图片、表格、文字等内容。

现有的多模态大模型大多是 Visual Encoder + Adapter + LLM 的结构,这些模型通常只能处理固定分辨率的模型结构。对于分辨率或长宽比不同的图像,只能通过缩放、裁剪或填充来对齐,但这无疑会大大损失掉图片中的原有信息。另外,这些模型一般都需要经过多个不同的训练阶段,如 CLIP 训练 Visual Encoder、多任务训练、不同分辨率训练等。

Fuyu 是一种 Decoder-only 的多模态大模型,无需单独的 Visual Encoder 和 Adapter。Fuyu 将图片切分成 patch 之后,经过映射直接输入到模型中,并用换行符 \n 来标识图片块的换行。简化的结构设计使得 Fuyu 能够在训练和推理时处理任意分辨率的图像,并不需要多个阶段的复杂训练策略。

在这里插入图片描述

总结

Fuyu Decoder-only 的结构看起来更自然,并且可以处理任意分辨率图像,在实际中,对文字图、表格、文档的理解更好。

  • 9
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值