VideoRetaling细读

yunshangyue

于 2024-01-01 12:31:51 发布

阅读量347

点赞数 9

文章标签：计算机视觉深度学习目标跟踪图像处理人工智能

本文链接：https://blog.csdn.net/yunshangyue/article/details/135323989

版权

摘要

在这里插入图片描述

上图是添加表情后的效果，更加合理自然

拆分为三个时序任务，具体做法后面介绍

人脸带有表情（这个也是之前没有的）
音频驱动唇形
人脸增强
生成的表情图片和mask掉的原始图片同时唇形驱动

introduction

之前paper的问题

用视频中原始的图片作为head pose的参考（LipGAN、Wave2lip中mask掉的gt），我们发现唇形对head pose很敏感，直接使用原始照片可能最终out-of-sync（不同步，不自然，）
大概是改变pose的情况下唇形学习的内容比较多、比较困难、效果也就比较差。这里通过生成中性表情的图片，不用改变pose，只用着眼于唇形区域效果会更好。
fig4 提到一点，中性表情可以看做是将所有的唇形进行标定了一下。之前的操作在没有声音的时候唇形也有比较大的幅度

我们的解决方案

在这里插入图片描述

fig-2中我们针对这个问题设计了三个模块。将输入照片经过表情中和（就是不开心也不伤心的自然表情），最终生成的照片的质量比之前的工作也好（没有mask区域的模糊，以及唇齿比较清晰）

具体做法

	功能	输出
input video	输入
crop face region	检测	人脸 box
		提取每帧pose 和expression 参数（3DMM 形式）
		生成中性表情视频 fig2中没有mask哪个图片
lip-sync网络		唇形驱动
enhancement network	后处理来提升效果