北大&字节联合发布视觉自动回归建模（VAR）：通过下一代预测生成可扩展的图像

AIGC Studio

已于 2024-04-18 09:08:37 修改

阅读量1.4k

点赞数 19

分类专栏： AIGC 深度学习论文阅读文章标签：人工智能 AIGC 图像生成计算机视觉

于 2024-04-18 09:08:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xs1997/article/details/137903769

版权

深度学习同时被 3 个专栏收录

329 篇文章

订阅专栏

319 篇文章

订阅专栏

232 篇文章

订阅专栏

北大和字节发布一个新的图像生成框架VAR。首次使GPT风格的AR模型在图像生成上超越了Diffusion transformer。

同时展现出了与大语言模型观察到的类似Scaling laws的规律。在ImageNet 256x256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍。

相关链接

项目地址：https://github.com/FoundationVision/VAR

Demo地址：https://var.vision

模型下载地址：https://huggingface.co/FoundationVision/var

VAR简介

视觉自回归建模（VAR）是一种新的视觉生成范式，它将图像的自回归学习重新定义为从粗到细的“下一个尺度预测”或“下一个分辨率预测”，与标准光栅扫描“下一个令牌”不同预言”。这种简单、直观的方法允许自回归(AR)转换器快速学习视觉分布并很好地概括。

自回归视觉生成的新范式✨：

视觉自回归建模（VAR）将图像的自回归学习重新定义为从粗到细的“下一个尺度预测”或“下一个分辨率预测”，与标准光栅扫描“下一个标记预测”不同。

GPT式自回归模型首次超越扩散模型：

该图研究了不同模型在ImageNet-256条件生成基准上的缩放行为。半径表示模型尺寸。轴采用对数刻度。 VAR首次使自回归模型在图像生成方面在多个维度上超越了扩散变换器（DiT）：图像质量、推理速度、数据效率和可扩展性。

发现VAR Transformer中的幂律缩放定律

零样本泛化能力

提供模型下载地址

实验

在 ImageNet-256×256基准上，VAR通过将Fréchet起始距离（FID）从5.20提高到1.80、起始分数（IS）从280.3提高到356.4，显着提高了其 AR 基线，推理速度提高了24倍。VAR使得GPT式自回归模型在FID分数、IS分数、推理速度和可扩展性方面首先超越了扩散变压器（DiT）。

Demo生图效果

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AIGC Studio 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。