自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Sora训练与AI短片生成——Datawhale AI视频生成学习3

的方式,生成较好的视频描述。

2024-03-14 23:26:37 946

原创 Transformer + SD解析与实战——Datawhale AI视频生成学习2

图像通过编码器(Encoder)处理,生成一个压缩后的表示形式,称为latent表示,其空间维度被压缩为32x32x4。对于encoder和decoder的不同attention,处理的方式可能会不一样。对于encoder来说,不需要mask,可以看到所有的token,而Decoder是自回归,需要mask。页面体验:https://modelscope.cn/studios/iic/scepter_studio/summary。GAN在人脸上比较好,但是不稳定,模式坍塌,窄分布的效果很好(人脸、人体)。

2024-03-10 00:25:35 1023 1

原创 Sora技术路径解读

这里的Encoder根据openai的资料来看可能是一个Video transformer,把输入的视频划分成若干个tuplet,每个tuplet会变成一个token,经过spatial temperal attention进行空间和时间建模获得有效的视频表征token,即上面灰色block部分。使用的encoder参考了Vivit的encoder,这里面提出了3种方式构建时空融合,但是3种方式的效果其实差不多,所以说具体用了哪一种我也不太清楚。sora使用DALLE3对图片打标签,对文本的理解能力强。

2024-02-29 20:44:28 844

原创 Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge Transfer 论文解读

Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge Transfer 论文解读

2023-02-28 00:09:50 1381 3

原创 Zero-Shot Out-of-Distribution Detection Based on the Pre-trained Model CLIP 论文解读

Zero-Shot Out-of-Distribution Detection Based on the Pre-trained Model CLIP 论文解读

2023-02-17 22:04:27 511

原创 A Survey of Zero-Shot Learning: Settings, Methods, and Applications 论文解读

A Survey of Zero-Shot Learning: Settings, Methods, and Applications 论文解读

2023-02-16 12:29:17 192

原创 2022计算机保研经历

中等985院校计算机类专业保研经验分享

2022-10-19 20:21:02 1094 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除