百度飞桨PaddlePaddle论文复现营心得：First Order Motion Model for Image Animation

最新推荐文章于 2023-04-25 23:01:57 发布

weixin_43691302

最新推荐文章于 2023-04-25 23:01:57 发布

阅读量1.5k

点赞数 1

文章标签： paddlepaddle

本文链接：https://blog.csdn.net/weixin_43691302/article/details/107845318

版权

百度飞桨PaddlePaddle论文复现营心得：First Order Motion Model for Image Animation

一、引言
- 1、简述
- 2、链接
二、具体内容

一、引言

1、简述

这篇文章主要实现了根据驱动视频的运动，来对源图像中的对象进行动画处理的任务。简单说来就如下图所示，在提供第一行的驱动视频和左侧人物原图像后，经动画处理后能生成如第三行所示的图像动画。
图片示例

2、链接

二、具体内容

1、背景

近年来，深度生成模型已经成为图像动画和视频重新定向的有效技术，这篇文章所使用的一阶运动模型生成的图像动画，可以广泛应用于日常生活中的许多领域，如表情迁移、虚拟换衣、动作迁移和虚拟头像等。
在这里插入图片描述

2、理论基础

本篇文章所需的理论基础：

生成对抗网络（GAN）
1）GAN：Generative Adversarial Nets
2）cGAN: Conditional Generative Adversarial Nets
3）Pixel2pixel：Image-to-Image Translation with Conditional Adversarial Net-works
泰勒展开
Image Animation模型
1）Monkey-Net：Animating arbitrary objects via deep motion transfer
第一个对象不可知的深度图像动画迁移模型(CVPR 2019)
介绍：首先尝试了通过自监督范式预测关键点来表征姿态信息，测试阶段估计驱动视频的姿态关键点完成迁移工作。
2）X2face:Anetworkforcontrollingfacegeneration using images, audio, and pose codes
使用密集运动场，通过图像扭曲生成输出视频(ECCV 2018)
介绍：
嵌入网络学习如何从源帧采样映射到嵌入的人脸。
驱动网络学习如何将嵌入人脸的像素点映射到目标的姿态和表情。

3、论文方法

Monkey-Net通过以自我监督的方式学习到的关键点对运动信息进行编码。在测试时，将根据驾驶视频中估计的相应关键点轨迹对源图像进行动画处理。通过以自我监督的方式学习到的关键点对运动信息进行编码。在测试时，将根据驾驶视频中估计的相应关键点轨迹对源图像进行动画处理。解决了需要使用大量双方人脸图像的数据进行事先训练问题。但仍存在着在假设零阶模型的情况下，它无法很好地模拟关键点邻域中的对象外观转换。

这篇文章中使用了一阶运动模型(first-order motion model)，即使用一组自学的关键点以及局部仿射变换来对复杂运动进行建模。其次，还引入了一个遮挡感知生成器(occlusion-aware generator)，该生成器采用一种遮罩(mask)，会自动估计以指示在源图像中不可见并且应该从上下文推断出的对象部分。第三，扩展了通常用于关键点检测器训练的等方差损失，以改善局部仿射变换的估计。最后，这篇文章的方法明显优于最新的图像动画方法，并且可以处理其他方法通常无法使用的高分辨率数据集。

整个方法模型由两个模块组成，分别是运动估计模块( the motion estimation module)和图像生成模块( the motion estimation module)。
在这里插入图片描述
其中重点是运动估计模块
输入：源图像S以及驱动视频D，
输出：
1）密集运动场(dense motion field)TˆS←D,表征了驱动图像D中的每个关键点到源图像S的映射关系
2）遮罩(occlusion mask)OˆS←D，表明了在最终生成的图像中，对于驱动图像D而言，哪部分姿态可以通过S扭曲得到，哪部分只能通过impainting得到。
在这里插入图片描述

4、结果展示

评价度量标准：

L1距离：计算了生成图片和ground-truth的l1距离。
Average Keypoint Distance (AKD)平均关键点距离：对于Tai-Chi-HD, VoxCeleband Nemo 数据集，采用了第三方预训练的关键点检测器来进行评估。AKD是通过计算ground truth检测关键点与生成视频的平均距离得到的。
Missing Keypoint Rate (MKR)关键点缺失率：在Tai-Chi-HD数据集中，姿态估计器为每个关键点返回一个额外的二进制标签，以指示是否成功地检测到关键点。这个度量评估每个生成帧的外观质量。
Average Euclidean Distance (AED)平均欧式距离：计算了ground truth和生成的帧表示之间的平均欧式距离。

在这里插入图片描述