Implicit Identity Representation Conditioned Memory Compensation Network

最新推荐文章于 2024-10-04 22:28:22 发布

楼下创了电瓶车

最新推荐文章于 2024-10-04 22:28:22 发布

阅读量121

点赞数

分类专栏： talking head 文章标签：计算机视觉音视频

本文链接：https://blog.csdn.net/weixin_51172489/article/details/134787285

版权

13 篇文章 4 订阅

订阅专栏

任务目标：给定静态源图像和动态驱动视频，生成talking head视频。

现存问题：

提出学习一个全局性的面部元记忆库来转移代表性的面部模式，以处理从静止源图像进行高度动态生成所引起的外观和结构模糊性；
提出了一种新的隐式身份表征条件记忆补偿网络（MCNet），该网络设计了隐式身份表征条件记忆模块（IICM）和面部记忆补偿模块（MCM），分别执行元记忆查询和特征补偿；
实验验证了模型的sota性能

目标： 学习一个全局元存储库来对整个面部数据集的面部结构和外观表示进行建模。使用方式是：从源面部的离散关键点坐标和相应的扭曲源特征图中学习隐式身份表示。然后，它用于作为全局元存储库的查询条件并获得源身份相关的特征存储，从而补偿生成时扭曲的源特征图。

建立一个基于训练数据的全局面部元记忆库，存储所有先验面部外观与结构。

将元存储体 $M_{o}$ 初始化为一个形状为 $C m \times H m \times Wm$ 的立方体张量。此外，多通道为元记忆库提供了足够容量来学习不同面部。

利用元记忆中学到的面部先验来补偿生成面部中的模糊区域。

利用源关键点 ${x_{s,t},y_{s,t}\}_{t=1}^{K}$ 以及对应的扭曲特征 $F_{w}^{i}$ 提供额外的外观约束，用于学习源面部的隐式身份表示。

学习源图像特征的原因：需要使用源的身份来补偿扭曲的面部特征图。

如上图3，左上部分是将关键点信息展平并归一化，左下部分是将扭曲特征 $F_{w}^{i}$ 卷积产生的投影特征 $F_{proj}^{i}$ 的全集空间信息进行全局平均池化（GAP），两部分压缩为通道描述后进行concate。

右半部分将级联后的特征输入MLP网络，学习身份隐式表征。

上述操作可表示为公式：

利用学习到的隐式身份表示 $S_{id}$ 来作为检索全局面部元记忆 $M o$ 的条件，为每个源面部图像生成依赖于身份的面部记忆 $M s$ 。

使用 $S_{id}$ 控制3x3卷积层来产生条件面部记忆。

其中w是卷积核的权重。si是 $S_{id}$ 中的第i个元素，j和k分别枚举了输出特征图和卷积的空间足迹。经上述操作，得到了依赖于源的面部记忆：

上述操作表示由w’‘参数控制的卷积层。

借助与身份无关的记忆 $M s$ ，扭曲的源特征图可以通过与源相关的面部先验进行补偿（模型图中b模块），以实现更有效地面部生成。

如图4所示，MCM记忆补偿模块，通过学习的源身份相关的面部记忆库Ms来细化扭曲特征 $F^{i}_{w}$ 。

为保持原特征图像中的身份信息，补偿采用了通道分割的策略：沿着通道维度将 $F^{i}_{w}$ 分为两部分：

$F^{i，0}_{w}$ ：前半部分，直接以贡献源身份而保留；
$F^{i，1}_{w}$ ：其余半部分，由源身份相关的存储体Ms进行调整，细化细节。分割后，使用1x1卷积层改变通道数，得到投影特征图 $F_{proj}^{i}$ 。

采用动态交叉注意力机制，在空间上补偿扭曲的源特征图。

采用Ms通过两个动态卷积层 $f_{dc}^{1}$ 和 $f_{dc}^{2}$ ，以投影特征 $F_{proj}^{i}$ 为条件来生成key和value。这样的key和value是与身份相关的并且可以提供上下文信息；
通过非线性投影，通过1x1卷积层和ReLU层将 $F_{proj}^{i}$ 映射到查询特征 $F_{Q}^{i}$ ，通过交叉注意力机制来重建更鲁棒的特征 $F_{ca}^{i}$ 。