DISPOSE: DISENTANGLING POSE GUIDANCE FORCONTROLLABLE HUMAN IMAGE ANIMATION

摘要

可控人体图像动画旨在利用驾驶视频从参考图像生成视频。由于稀疏制导提供的控制信号有限(例如,骨骼姿势),最近的工作试图引入额外的密集条件(例如,深度图)来确保运动对齐。然而,当参考人物的体型与驾驶视频有明显差异时,这种严格的密集引导会影响生成视频的质量。在本文中,我们提出了一种无需额外密集输入就能挖掘更一般化和有效的控制信号的方法,将人体图像动画中的稀疏骨架姿态分解为运动场引导和关键点对应。具体而言,我们将稀疏运动场和参考图像生成密集运动场,在保持稀疏姿态控制泛化的同时提供区域级密集引导。我们还从参考图像中提取姿态关键点对应的扩散特征,然后将这些点特征转移到目标姿态中,以提供清晰的身份信息。为了无缝集成到现有模型中,我们提出了一种即插即用的混合ControlNet,它可以在冻结现有模型参数的同时提高生成视频的质量和一致性。大量的定性和定量实验证明了DisPose与现有方法相比的优越性。

1 引言

1.1 可控视频生成与人体图像动画
论文首先介绍了可控视频生成技术,例如相机控制、轨迹控制等,并强调了可控人体图像动画在艺术创作、社交媒体和数字人等领域的巨大应用潜力。可控人体图像动画的目标是根据驱动视频生成参考图像的动画视频,与其它可控视频生成方法相比,它具有更大的灵活性和应用潜力,可以生成更复杂的人物外观和运动模式。
1.2 可控人体图像动画的挑战
运动控制: 如何跟随驱动视频的运动轨迹。
外观一致性: 如何在复杂运动中保持参考图像的外观信息。
1.3现有方法的局限性
稀疏控制: 使用骨骼姿态作为控制信号,但信息有限,难以捕捉精细的运动信息。
密集控制: 使用密集条件(如深度图)作为控制信号,但限制了生成人物的外观,难以适应不同体型,并且提取密集信号在复杂运动视频中很困难。
1.4 DisPose 的提出
为了解决现有方法的局限性,论文提出了 DisPose,一个可插拔的模块,旨在从仅骨骼姿态图和参考图像中提取更通用的控制信号,无需额外的密集输入。DisPose 通过解耦姿态引导,将其分解为运动场引导和关键点对应,从而提供更有效和通用的控制信号。
1.5 DisPose 的优势
通用性: 能够适应不同体型和外观的参考图像。
有效性: 能够生成更合理、更一致的视频。
可插拔性: 可以轻松地应用于现有的动画模型。

2 相关工作

这一部分主要回顾了与 DisPose 相关的现有研究工作,并指出了 DisPose 相比现有方法的改进之处。
2.1 潜在图像/视频扩散模型:
介绍了基于扩散模型的图像和视频生成技术,例如 Stable Diffusion 和 Stable Video Diffusion,并说明了潜在扩散模型在降低计算成本的同时保持了生成质量。指出 DisPose 可以应用于现有的潜在扩散模型,例如 MusePose 和 MimicMotion。
2. 2扩散模型人体图像动画:
介绍了利用潜在扩散模型进行人体图像动画生成的研究,例如 Animate Anyone 和 MimicMotion,并说明了 DisPose 可以应用于这些模型。
2.3.可控人体图像动画中的控制引导:
介绍了现有方法中使用的控制引导方式,主要包括:
骨骼姿态: 使用 OpenPose 或 DWpose 等工具提取骨骼姿态作为控制信号,但信息有限。
密集条件: 使用 DensePose、SMPL 或深度图等密集条件作为控制信号,但限制了生成人物的外观,难以适应不同体型,并且提取密集信号在复杂运动视频中很困难。指出 DisPose 通过解耦姿态引导,避免了使用密集条件,同时提供了更有效和通用的控制信号。

3 准备工作

这一部分介绍了论文中使用的 Stable Diffusion 模型以及扩散模型的去噪过程。
3.1 Stable Diffusion 模型:
论文选择了 Stable Diffusion 作为基础扩散模型,因为它是一个流行的开源模型,拥有活跃的社区。Stable Diffusion 在预训练自动编码器的潜在空间中进行扩散过程。
输入图像首先被转换为潜在表示,然后通过去噪过程生成图像。
3.2 扩散模型的去噪过程:
扩散模型将输入图像转换为潜在表示,然后应用方差保持的马尔可夫过程,其中噪声水平单调增加,生成不同的噪声潜在表示。去噪网络学习通过预测添加的噪声来逆转这个过程,并使用均方误差 (MSE) 损失进行训练。去噪网络通常使用 U-Net 架构,包括多个分辨率级别的下采样/上采样块和一个中间块。
3. 3扩散模型中的控制条件:
扩散模型通常使用文本嵌入作为控制条件,将文本信息引入到图像生成过程中。论文将 DisPose 中的运动场引导和关键点对应引导作为控制条件,用于人体图像动画生成。

4 方法

论文架构图如图2

这 部分详细介绍了 DisPose 模块的核心内容,即如何从稀疏的骨骼姿态和参考图像中提取高效的控制信号,并将其整合到现有的人像动画模型中。
主要内容包括:
运动场引导 (Motion Field Guidance)
稀疏运动场 (Sparse Motion Field): 利用 DWpose 提取骨骼姿态,并跟踪关键点在参考图像和驱动视频中的运动轨迹,得到稀疏运动场。
密集运动场 (Dense Motion Field): 通过条件运动传播 (CMP) 算法,将稀疏运动场和参考图像结合起来,生成密集运动场,提供区域级别的运动信号,同时避免对目标姿态的严格几何约束。
运动编码器 (Motion Encoder): 设计专门的编码器来处理光流,包括稀疏运动编码器、密集运动编码器和特征融合层,最终得到运动场引导信号。
关键点对应 (Keypoint Correspondence)
点特征提取 (Point Feature Extraction): 从参考图像中提取 DIFT 特征,并根据参考姿态定位到关键点位置,得到关键点特征图。
点编码器 (Point Encoder): 利用多层感知机 (MLP) 对关键点特征图进行多尺度编码,使其与混合 ControlNet 的 U-Net 编码器兼容,并计算多尺度关键点对应关系。
混合 ControlNet (Plug-and-Play Hybrid ControlNet)
将运动场引导和关键点对应信号整合到混合 ControlNet 中,作为额外的控制信号,与现有的动画模型无缝集成。
混合 ControlNet 包括运动编码器、点编码器和控制网络,分别用于处理运动场、关键点和文本条件。
DisPose 的优势:
无需额外的密集输入: 相比于依赖深度图、SMPL 等密集信息的现有方法,DisPose 仅需骨骼姿态和参考图像,避免了形状约束,提高了泛化能力。
高效的引导信号: 通过运动场引导和关键点对应,DisPose 提供了区域级别和语义级别的控制信号,能够更好地控制动画的质量和一致性。
可插拔式模块: DisPose 可以轻松地集成到现有的基于 U-Net 架构的动画模型中,无需修改模型参数,方便实用。

5 实验

这部分介绍了 DisPose 模块在可控人像动画任务中的实验结果和分析。
主要内容包括:
实验设置 (Implementations)
* 基线模型 (Baseline Models): 将 DisPose 集成到两种开源的人像动画模型中:MusePose 和 MimicMotion,以验证其有效性。
* 实现细节 (Implementation Details): 介绍了训练数据、模型参数、训练过程等细节信息。
* 评估指标 (Evaluation metrics): 使用 FID-FVD、FVD、CD-FVD 等指标评估视频质量,并使用 VBench 指标评估视频与人类感知的一致性。
定量比较 (Quantitative Comparison)
* TikTok 数据集 (Evaluation on TikTok dataset): 将 DisPose 与 MagicPose、Moore-AnymateAnyone、MusePose、ControlNeXt 和 MimicMotion 等模型进行比较,结果表明 DisPose 在 VBench 指标上取得更高的分数,同时降低了 FID-FVD 和 FVD 指标,表明生成的视频质量更高,与人类感知更一致。


* 未见数据集 (Evaluation on unseen dataset): 构建了一个未见数据集,进一步验证 DisPose 的泛化能力,结果表明 DisPose 在 VBench 指标上仍然取得优异的成绩。
定性结果 (Qualitative Results)
* 与现有方法的比较 (Comparison with state-of-the-art methods): 展示了 DisPose 在 TikTok 数据集上的定性结果,结果表明 DisPose 能够生成高质量的视频,并很好地捕捉姿态变化。


* 与密集条件的比较 (Comparison with dense condition): 将 DisPose 与基于密集条件的方法进行比较,结果表明 DisPose 能够避免密集条件带来的形状约束问题,生成更自然、更符合参考图像的视频。
* 跨身份动画 (Cross-identity animation): 展示了 DisPose 在跨身份动画任务中的能力,结果表明 DisPose 能够生成高质量、忠实于目标运动的动画。
消融实验 (Ablation Study)
* 定量结果 (Quantitative results): 通过消融实验,验证了运动场引导和关键点对应的有效性,表明两者都对生成视频的质量和一致性有显著的提升。
* 语义对应 (Semantic correspondence): 可视化了关键点对应的语义对应关系,表明 DisPose 能够有效地定位参考图像中的语义区域。
实验结果表明,DisPose 能够有效地提升可控人像动画的质量和一致性,同时具有良好的泛化能力。

6 结论

在本文中,我们提出了DisPose,一个用于改进人类图像动画的即插即用模块,其目的是在没有额外密集输入的情况下提供有效的条件控制。为了实现这一点,我们将姿态控制分解为运动场制导和关键点对应。为了获得运动场制导,首先从骨架位姿构造跟踪矩阵,然后分别通过高斯滤波和条件运动扩散得到稀疏和密集的运动场。此外,我们引入扩散特征的关键点对应关系来探索图像动画中的语义对应关系。最后,将提取的制导特征整合到混合控制网络中。经过训练后,我们的模型可以整合到现有的人体图像动画模型中。各种模型的广泛评估也验证了我们的处置的有效性和普遍性。

论文地址:https://lihxxx.github.io/DisPose/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值