venZQ-CSDN博客

原创 Sora训练与AI短片生成——Datawhale AI视频生成学习3

的方式，生成较好的视频描述。

2024-03-14 23:26:37 1226

原创 Transformer + SD解析与实战——Datawhale AI视频生成学习2

图像通过编码器（Encoder）处理，生成一个压缩后的表示形式，称为latent表示，其空间维度被压缩为32x32x4。对于encoder和decoder的不同attention，处理的方式可能会不一样。对于encoder来说，不需要mask，可以看到所有的token，而Decoder是自回归，需要mask。页面体验：https://modelscope.cn/studios/iic/scepter_studio/summary。GAN在人脸上比较好，但是不稳定，模式坍塌，窄分布的效果很好（人脸、人体）。

2024-03-10 00:25:35 1353 1

原创 Sora技术路径解读

这里的Encoder根据openai的资料来看可能是一个Video transformer，把输入的视频划分成若干个tuplet，每个tuplet会变成一个token，经过spatial temperal attention进行空间和时间建模获得有效的视频表征token，即上面灰色block部分。使用的encoder参考了Vivit的encoder，这里面提出了3种方式构建时空融合，但是3种方式的效果其实差不多，所以说具体用了哪一种我也不太清楚。sora使用DALLE3对图片打标签，对文本的理解能力强。

2024-02-29 20:44:28 996 1

weixin_46112284的博客

原创 Sora训练与AI短片生成——Datawhale AI视频生成学习3

原创 Transformer + SD解析与实战——Datawhale AI视频生成学习2

原创 Sora技术路径解读

原创 Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge Transfer 论文解读

原创 Zero-Shot Out-of-Distribution Detection Based on the Pre-trained Model CLIP 论文解读

原创 A Survey of Zero-Shot Learning: Settings, Methods, and Applications 论文解读

原创 2022计算机保研经历

空空如也

空空如也