Transformer + SD解析与实战——Datawhale AI视频生成学习2

venZQ

于 2024-03-10 00:25:35 发布

阅读量1.2k

点赞数 16

文章标签：人工智能 transformer 音视频

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46112284/article/details/136593819

版权

本文详细介绍了Transformer+SD在DatawhaleAI中用于视频生成的技术路径，涉及GAN、VQGAN、Diffusion模型以及TransformerBlock的实现。文章还讨论了图像生成的四个阶段，手写LLM的Attention机制，以及UViT和DiT之间的区别。最后，提及了ModelScope平台的使用方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Transformer + SD解析与实战——Datawhale AI视频生成学习2

文章目录

Transformer + SD解析与实战——Datawhale AI视频生成学习2

文生图技术路径

图像生成的四个阶段

在这里插入图片描述

Gan-based

GAN在人脸上比较好，但是不稳定，模式坍塌，窄分布的效果很好（人脸、人体）。对于自然分布的领域很好。

在这里插入图片描述

VQGAN

VQ-GAN是自回归方式，视频生成

在这里插入图片描述

Diffusion

在这里插入图片描述

基于transformer的diffusion

输入是一张256x256像素的图像，具有3个颜色通道（RGB）。图像通过编码器（Encoder）处理，生成一个压缩后的表示形式，称为latent表示，其空间维度被压缩为32x32x4。latent space的维度为32x32x4的向量。将latent space的每个token化，即用patchify方法，将label和timestep拼接上embedding。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

主流训练步骤

在这里插入图片描述

ModelScope

modelscope scepter万能图片生成工作台

可以直接用它们的低代码平台做推理

页面体验：https://modelscope.cn/studios/iic/scepter_studio/summary

也可以在“我的Notebook"里面创建笔记本，然后输入下面两行代码做一下训练端的

pip install scepter
python -m scepter.tools.webui --language zh

视频生成发展

脱离了4s的发展

在这里插入图片描述

手写LLM

Attention

在这里插入图片描述

第一行： $h_t$ 是target, $h_s$ 是source

Self-Attention

对于encoder和decoder的不同attention，处理的方式可能会不一样。对于encoder来说，不需要mask，可以看到所有的token，而Decoder是自回归，需要mask。

multi-head: attention可以分成多个，不同的注意力可以注意到不同的地方。

在这里插入图片描述

Llama结构图

在这里插入图片描述

TransformerBlock

class TransformerBlock:
    def __init__(

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。