- huawei
- https://github.com/PixArt-alpha/PixArt-sigma?tab=readme-ov-file
- https://arxiv.org/pdf/2403.04692#page=1.29
- 问题引入
- 相比前身来说可以生成4K的图片,在pixart-α基础上进行训练,有高质量的训练数据以及Efficient Token Compression,主要是后者得以支持4K图片的生成;
- methods
- Key-Value (KV) Token Compression:将复杂度由 O ( N 2 ) → O ( N 2 R 2 ) O(N^2)\rightarrow O(\frac{N^2}{R^2}) O(N2)→O(R2N2)
- Weak-to-Strong Training Strategy:使用SDXL’s VAE;低分辨率到高分辨率的适应使用position encoding interpolation;