今天跟进的是Meta、UC Berkeley Wiliam Peebles、New York University Saining Xie的联合工作Scalable Diffusion Models with Transformers。2022年12月发布,Wiliam Peebles在Meta AI实习期间完成该论文,现就职于OpenAI。
扩散模型是一种深度学习生成模型,可生成各种各样的高分辨率图像或视频,主要办法是模拟数据逐步去噪过程来生成新样本(采样)。Diffusion Transformers,DiTs遵循ViTs最佳实践,是一种新型扩散模型,结合了DDPMs和Transformer各自的特点。
DiT核心思想是使用Transformer取代U-Net主干作为扩散模型骨干网络,以处理图像潜在表示。其关键特点有:
- 基于Transformer架构: DiT采用Transformer作为核心架构,这使得模型能够处理图像的序列化表示,并通过自注意力机制捕捉图像中的长距离依赖关系。
- 潜在空间操作: DiT在潜在空间中训练,通过使用变分自编码器(VAE)将图像编码到潜在空间,然后Patchify,将空间输入转换为T个tokens的序列。
- 多种Transform