![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
talking head
文章平均质量分 93
楼下创了电瓶车
这个作者很懒,什么都没留下…
展开
-
Identity-Preserving Talking Face Generation with Landmark and Appearance Priors
首先,我们设计了一个transformer为基础的地标生成器,从音频获得准确的唇和下巴的标志。给定音频序列和初始输入视频,本文目标是逐帧完成输入视频的下半部分被遮挡的脸部来生成口型同步的说话脸部视频。在推理过程中,将生成的全脸粘贴到原始帧上,由于生成的人脸可能包括一小部分伪影背景,通过高斯平滑的人脸mask将生成人脸与原始帧的背景合成,如图。此处输入数据主要由三部分组成,取连续5帧,音频数据和先前的landmarks为输入,主要是嘴唇和下巴位置的坐标。上方公式左侧代表第t层,下巴和嘴唇处预测得到的坐标。原创 2024-05-08 16:01:47 · 1034 阅读 · 0 评论 -
SyncTalk The Devil is in the Synchronization for Talking Head Synthesis|论文随记
如图2所示。SyncTalk主要由3部分组成:a)由FaceSync控制器控制的嘴唇运动和面部表情,b)由HeadSync稳定器提供的稳定头部姿势,c)由动态肖像渲染器渲染的高同步面部帧。原创 2024-03-08 15:55:38 · 887 阅读 · 1 评论 -
MetaPortrait Identity-Preserving Talking Head Generation
模型按照上图2,可以分为四个部分如下:(a)给定源图像和t个驱动帧序列,对其提取Landmark特征并编码;(b)根据concate的输入,估计源图像和驱动帧之间的扭曲流www;(c)使用ID保持网络,进一步细化扭曲后的输入源图像;(d)增强上采样并生成最终的高分辨率图像。原创 2023-12-09 15:26:40 · 207 阅读 · 0 评论 -
Implicit Identity Representation Conditioned Memory Compensation Network
首先用关键点检测器,得到成对的驱动和源图像的K对关键点;估计两个关键点得到密集运动流,对源图像特征进行扭曲后得到扭曲特征;将关键点特征和扭曲特征一起经过MLP编码送入IICM模块,以编码隐式身份表征。它将作为元存储Mo的查询条件,来产生源身份相关的存储体Ms;内存补偿模块(MCM),在获得Ms之后,利用动态交叉注意机制在MCM模块中对变形的源特征图进行空间补偿,然后输出补偿后的特征图Fi cpt。通过解码器解码生成目标图像。原创 2023-12-04 16:22:50 · 95 阅读 · 0 评论 -
Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation
利用优化后的EAT模型和我们的训练损失,我们仅在映射网络和EAM模块中添加额外的CLIP损失进行微调。具体而言,我们使用CLIP的图像编码器从预测的说话脸中提取图像嵌入,使用其文本编码器从描述中提取文本嵌入。(b) 我们的 EAT 通过灵活的指导,包括情感提示或文本引导的 CLIP 监督,通过轻量级的调整,将情绪不可知的头部说话模型转变为情绪可控的模型。这消除了对情感训练数据的需求,并能够推广到需要罕见表情的应用。,提出了一种参数高效的情感适应方法,用于快速适应预训练的说话头模型,以应对情感说话头任务。原创 2023-11-23 11:47:31 · 240 阅读 · 0 评论 -
Learning Dynamic Facial Radiance Fields for
与传统的图像生成模型不同,NeRF 不仅仅生成颜色值,还生成了与场景中每个点的方向相关的辐射亮度。(例如说话时嘴唇的变形,嘴角附近的3D点被映射回参考图像,可能会偏离正确的口型)。大量的实验表明,本文方法在有限的训练数据和迭代下,生成的自然说话视频具有优越性。对于一个任意的人,只有一个短的训练视频剪辑可用,一个个性化音频驱动的人像动画模型与高质量的合成结果应该只需要几次迭代的微调。对于一个任意的未见过的身份,只需要一个简短的训练片段,只需要他/她的几十秒的讲话视频,基于预训练的基础模型进行微调。原创 2023-11-16 10:24:00 · 174 阅读 · 1 评论 -
Flow-guided One-shot Talking Face Generation with a High-resolution
本文的方法也获得了最好的结果。的生成中,给定一对面部动画参数,3DMM能够在内面部生成精确的密集运动流(图5(b)中的绿色部分)。然而,3DMM 无法描述面部区域之外的运动(图 5 (b) 中的蓝色和橙色部分)。与sota的方法进行定量和定性比较,在HDTF数据集上对比的结果如下,可以观察到,本文的方法具有很强的竞争力。提出了一个新的流引导的框架,由一个动画生成器和一个流引导的视频生成器构成。 如图5(b)所示,将面部图像裁剪为三个部分:内面部部分(绿色)、上躯干部分(橙色)和头部相关部分(蓝色)。原创 2023-11-11 22:55:13 · 481 阅读 · 1 评论 -
论文随记|Depth-Aware Generative Adversarial Network for Talking Head Video Generation
网络可分为三个部分:(1)人脸深度网络FdF_{d}Fd(2)深度引导稀疏关键点检测子网络FkpF_{kp}Fkp,输入源和驱动图像,使用FdF_{d}Fd生成的深度图与相应的RGB图像结合,学习用于检测面部关键点的几何和外观特征,可以生成可用于生成人脸的相对运动场(3)特征扭曲模块,接收关键点作为输入来生成运动场,运动场用于扭曲源图像特征图以与外观信息融合,从而产生扭曲的特征FwF_{w}Fw。为了强制模型专注于面部结构和微表情运动,模型使用源深度图D。原创 2023-11-03 22:01:56 · 147 阅读 · 0 评论 -
DPE Disentanglement of Pose and Expression for General Video Portrait Editing
设计一组用于解耦合的约束,如图三所示的三条虚线所一一对应的元组,即、和。是解开纠缠的核心,即和对,可以驱动生成器输出有意义的面部,并且鼓励编辑模块提取准确的姿势和表情。该指示器指示要编辑的源图像的姿势或表情。 文中通过举一个矩形缩小的例子,来说明对于表情和姿势生成器的训练需要加上一定的约束,否则不能将两种信息进行解耦合。 对于接受驱动图像的运动编码器,没有使用单独的编码器,而是根据编码器的潜在空间构建运动空间。原创 2023-10-25 11:00:39 · 145 阅读 · 0 评论 -
论文随记|One-Shot High-Fidelity Talking-Head Synthesis with Deformable Neural Radiance Field基于可变形神经辐射场的o
LED 采用顶点到像素对应和位置编码来学习逐点 3D 变形。它既轻量又高效,因为它不需要为每个采样点找到最近的驱动网格顶点并显式计算其与相应规范网格顶点的距离。此外,LED 中的编码器和解码器网络是完全卷积的且非常浅,因此在计算上比其他基于 MLP 的变形场要高效得多。原创 2023-10-21 14:59:59 · 187 阅读 · 1 评论 -
DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven Portraits Animation制作广义音频驱动人像动画的扩散模
提出了一种条件扩散模型用于talking head生成。引入平滑信号作为条件,生成过程是音频驱动、与时间相关的去噪过程原创 2023-10-19 17:46:41 · 465 阅读 · 1 评论