【论文复现】Implicit Identity Representation Conditioned Memory Compensation Network for Talking Head Vide-CSDN博客

本文链接：https://blog.csdn.net/weixin_57974242/article/details/135908611

MCNET：用于头部说话视频生成的隐式身份表示条件记忆补偿网络。

code：https://github.com/harlanhong/ICCV2023-MCNET?tab=readme-ov-file

论文

介绍

任务目标：给定静态源图像和动态驱动视频，生成talking head视频。

动机：Talking head视频生成的目的是利用目标驱动视频中获得的运动信息，在静态目标图像中使用动态姿态和表情来驱动人脸，同时保留目标人物ID。然而，驱动视频中剧烈复杂的运动会导致模糊生成，因为静止的目标图像不能为被遮挡区域或细微的表情变化提供足够的外观信息，从而产生严重的伪影，显著降低了生成质量。

方法：提出学习一个全局的人脸表征空间，并设计一个新的隐式身份表征条件记忆补偿网络，即MCNet，用于高保真的说话头生成。具体来说，设计了一个网络模块，从所有的训练样本中学习一个统一的空间面部元记忆库，该元记忆库可以提供丰富的面部结构和外观先验来补偿扭曲源面部特征的生成。提出了一种有效的基于隐式身份表示的查询机制，从离散的关键点源图像学习。它可以方便地从存储库中检索出更多相关的信息来进行补偿。

图1:所提出的隐身份表示条件记忆补偿网络(MCNet)的动画说明。MCNet首先学习源图像和驱动图像之间的运动流(c);(d)显示由头部剧烈运动引起的可能的遮挡或变形伪影。利用运动流对源图像进行变形，得到变形图像;(e)呈现以隐关键点表示为条件的学习记忆库的随机采样记忆通道。使用我们的记忆补偿网络生成的结果示例如(f)所示。

方法

图2:MCNet概述。包含两个模块来补偿源面部特征映射:(i)隐身份表征条件记忆模块(IICM)学习全局的面部元记忆库，以及从源图像的面部关键点坐标中获取隐身份表征，并对学习到的元记忆库进行查询，以获得与扭曲的源特征映射结构更相关的面部记忆进行补偿;(ii)记忆补偿模块(MCM)设计了一种动态交叉注意力机制，对扭曲的源特征图进行空间补偿。

图3:所提出的隐身份表示条件记忆模块(IICM)的示意图。符号⃝c表示拼接操作，“GAP”和“Conv”分别表示全局平均池化和卷积层。投影特征Fi proj的详细生成参见图4。其中，Ci为第i级扭曲特征F i w的通道数，Cm为全局人脸元记忆库的通道数。

图4:内存补偿模块(MCM)的示意图。表示矩阵乘法，和是动态卷积层[4]，其核权重由投影特征估计。表示拼接操作，“Conv”表示卷积层。Ci是自编码器框架中第i级特征的通道数，Cm是记忆库的通道数。

实验

图5:在VoxCeleb1(前两行)和CelebV数据集(后两行)上(a)相同身份重演和(b)交叉身份重演的定性比较。与最先进的方法相比，该方法显示出更高的保真度。放大以获得最佳视野。

图6:定性消融研究。记忆补偿模块(MCM)和隐式恒等表示条件记忆模块(IICM)都能有效地提高生成性能。最后一列验证了我们的IICM可以学习不同源面部样本的身份条件记忆(即Ms)。

结论

本文提出一种隐式身份表示条件记忆补偿网络(MCNet)来全局学习具有代表性的面部模式，以解决说话人视频生成任务中由动态运动引起的歧义问题。MCNet利用设计的隐式身份表示条件记忆模块来学习身份依赖的面部记忆，并通过提出的记忆补偿模块来补偿扭曲的源特征映射。广泛的结果清楚地表明了学习全局面部元记忆的有效性，与最先进的技术相比，产生了更高的保真度结果。

参考：【talkinghead】1：MCNET(单张图像+驱动视频) - 知乎 (zhihu.com)

复现

Inference

问题1：AttributeError: module ‘distutils‘ has no attribute ‘version‘

参考：AttributeError: module ‘distutils‘ has no attribute ‘version‘ 解决方案 - 知乎 (zhihu.com)

#1
pip uninstall setuptools
#2
conda install setuptools==58.0.4

解决

MP4贴不上来。。作者没提供示例，随便找了个视频+图片，效果还不错，网络结构是生成视频后，抽帧，然后用gfpgan做超分，再将所有帧合成视频。

生成的视频会去掉声音。

【论文复现】Implicit Identity Representation Conditioned Memory Compensation Network for Talking Head Vide

论文

介绍

方法

实验

结论

复现

Inference

Train