Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance

最新推荐文章于 2024-06-13 08:10:28 发布

尔呦

最新推荐文章于 2024-06-13 08:10:28 发布

阅读量862

点赞数 16

分类专栏： video generation 文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_44994838/article/details/139149558

版权

17 篇文章 0 订阅

订阅专栏

Alibaba&南京大学&复旦大学
https://fudan-generative-vision.github.io/champ/#/代码开源
related works:16, 43(skeleton),36,47(semantic),18,56(dense motion flows),9, 24,35, 40, 44, 45(gan),14, 39,11, 18, 18, 43, 52(diffusion-based)

整体框架：本文提出了SMPL模型来提取pose和shape信息，之后这些信息作为LDM模型的输入指导信息，具体如下图所示；
SMPL model：参数化的表示人体，其中pose表示在空间 $\theta\in\mathbb{R}^{24\times3\times3}$ ，shape表示在空间 $\beta\in\mathbb{R}^{10}$ ，融合两个参数空间，就可以生成一个人体的3d网格表示 $M\in\mathbb{R}^{3\times N}$ ，其中 $N = 6890$ 表示定点个数，定点权重 $W\in\mathbb{R}^{N\times k}$ 表示顶点和关节之间的关系；
给出参考图片 $I_{ref}$ 和一段视频 $I^{1:N}$ ，使用模型4D-Humans得到SMPL表示， $H_{ref},H^{1:N}$ ，之后得到对应的人体网格表示，从而可以从网格中提取对应的深度图、法向量图和semantic；
因为要生成的事参考图片的视频，所以SMPL表示是 $H^i_{trans}=SMPL(\beta_{ref},\theta_m^i)$ ，其中 $i$ 表示帧序号，表示融合参考图片的shape参数空间和第 $i$ 帧的pose参数空间；
除了上面三种条件(depth,semantic,normal)以外还加入了skeleton来增强对面部表情和手部动作的表示；
四种guidence的监督方式，分别有各自的guidence网络 $F^i(\cdot,\theta^i)$ ，在对条件进行编码之后将得到的结果进行加和 $\sum_{i = 1}^NF^i(\cdot,\theta^i)$ ，作为最后的guidance和noise latent结合作为网络的输入；

关注