腾讯音频+图片=肖像生成 AniPortrait 论文核心

腾讯开源项目AniPortait利用音频和肖像图片生成逼真的动画,分为提取3D特征与2D地标阶段。尽管在某些方面不如阿里EMO,但展示了在面部自然度和可控性上的优势,适用于面部编辑和重演。
摘要由CSDN通过智能技术生成

腾讯开源项目AniPortait!音频+图片+肖像视频

功能:可以生成由音频和参考肖像图像驱动的高质量动画。算法流程分为两个阶段:1. 从音频中提取 3D 中间表示并将其投影到一系列 2D 面部landmark中;2. 采用鲁棒的扩散模型,结合运动模块,将landmark序列转换为逼真且时间一致的肖像动画
结论:在面部自然度、姿势多样性和视觉质量方面的优越性,提供了增强的感知体验。 此外,在灵活性和可控性方面表现出巨大的潜力,可以有效地应用于面部运动编辑或面部重演等领域
开源:开源模型权重与训练框架(部分)
Demo对比

  1. 主观感觉没有阿里EMO效果好,官方结论也没有EMO好
  2. 细节方面,嘴唇、牙齿、脸部边界存在崩溃与都懂得现象
  3. 支持时长较短(10s)
    [图片]

阶段1:Audio2Lmk

提取一系列脸部的landmark,从音频输入中捕获复杂的面部表情和嘴唇动作。

  1. 使用wav2vec作为音频编码器+2*FC得到3D面部序列特征
  2. 使用wav2vec(与1不同参数)作为音频编码器+Transformer解码器得到姿势序列特征
  3. 使用perspective project将两种特征转换为面部标志的2D序列

阶段2:Lmk2Video

利用这个landmark序列来生成具有时间稳定性的高质量肖像视频。

  1. 网络参考AnimateAnyone,主干网络是sd1.5,结合一个时间运动模块(橘黄色),将多帧噪声输入转换为连续的视频帧
  2. Pose Guider采用使用controlnet中multi-scale的训练策略,将相应尺度的标志性特征合并到主干的不同块中
  3. 将参考图像的landmark作为额外的输入,PoseGuider 的交叉注意力模块促进参考landmark和每帧目标landmark之间的交互。 此过程为网络提供了额外的线索来理解面部标志和外观之间的相关性,从而有助于生成具有更精确运动的肖像动画。

其他Trick

  1. MediaPipe 提取 3D meshes 和 6D poses for annotations
  2. Audio2Mesh网络训练使用了未开源的内部数据;Audio2Pose使用HDTF数据集训练;单卡A100训练
  3. Lmk2Video使用VFHQ和CelebV-HQ数据集,分辨率512x512,4xA100训练
    结论
    在这里插入图片描述

参考

https://arxiv.org/pdf/2403.17694.pdf
https://github.com/Zejun-Yang/AniPortrait
对比阿里的EMO:https://github.com/HumanAIGC/EMO

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值