PIXART-α: FAST TRAINING OF DIFFUSION TRANS- FORMER FOR PHOTOREALISTIC TEXT-TO-IMAGE SYNTHESIS

  1. 问题引入
  • transformer diffusion text to image synthesis

在这里插入图片描述

  • 强调的点主要包含3个,最后落足到降低训练代价;
  • 分解为三部分的训练策略:第一阶段使用DIT原始在imagent上面训练的class cond的模型进行初始化;第二阶段目标是从class cond模型迁移到text cond,所以专门构建了数据;第三阶段在高质量高分辨率美学分数高的数据上进行训练;
  • 高效的T2I transformer:在原始dit block中的self attn和ffn之间增加了cross attn层用来增加text cond,并且该层的输出projection layer进行0初始化;原始adaLN层每层都会得到自己的 S ( i ) = [ β 1 ( i ) , β 2 ( i ) , γ 1 ( i ) , γ 2 ( i ) , α 1 ( i ) , α 2 ( i ) ] S^{(i)} = [\beta_1^{(i)},\beta_2^{(i)}, \gamma_1^{(i)},\gamma_2^{(i)},\alpha_1{(i)},\alpha_2^{(i)}] S(i)=[β1(i),β2(i),γ1(i),γ2(i),α1(i),α2(i)],本文认为不使用class cond了,所以只在第一个block求 S ‾ \overline{S} S,之后再进行N个block共享(还进行了block级别的映射g function), S ( i ) = g ( S ‾ , E ( i ) ) S^{(i)} = g(\overline{S},E^{(i)}) S(i)=g(S,E(i)),其中 E ( i ) E^{(i)} E(i)是layer-specific trainable embedding;最后还进行了重参数化,以初始化 E ( i ) E^{(i)} E(i)使得 S ( i ) S^{(i)} S(i)和DIT原本一样;
  • 高质量数据;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值