[IVA2020-best]Let’s Face It: Probabilistic Multi-modal Interlocutor-aware Generation of Facial

深蓝蓝蓝蓝蓝

已于 2022-04-13 11:08:02 修改

阅读量107

点赞数

分类专栏：深度学习算法论文阅读文章标签：机器学习 python 人工智能深度学习算法

于 2021-10-11 22:46:45 首次发布

本文链接：https://blog.csdn.net/wrk226/article/details/122740525

版权

论文阅读同时被 2 个专栏收录

90 篇文章 10 订阅

订阅专栏

深度学习算法

16 篇文章 1 订阅

订阅专栏

标题：Let's Face It: Probabilistic Multi-modal Interlocutor-aware Generation of Facial Gestures in Dyadic Settings
链接：https://arxiv.org/pdf/2006.09888

目标

生成人与人之间的交流视频。具体来说，就是在一组交流中，给出其中一个人(演讲者)的视频，生成另一个人(聆听者)的视频。

优点

1.提出了一个表达多模态，多对象的序列信息的方式
2.使用了MoGlow来建模
3.提出了通过众包来完成模型评价的方式

数据

图像
先将视频按照25fps的速度转换成图片，然后用openface来提取landmark。提取的landmark用来决定截图大小。之后将截好的图放入ringnet来估测初始的flame参数。landmark和flame参数会被一起送到flame fitter中来产生最终的flame参数。最终会得到一个100D表情维度+12D旋转维度+300D形状维度的向量。在表情维度中只取用前50维，然后加上下巴和脖子旋转的六维组合成面部特征。然后还进行了时间维度上的平滑化处理。声音
声音讯号是提取了25维的MFCC和一维的能量，然后还提取了声音的音高，音色之类的讯息。一共有30维。
使用Voca，通过声音讯号来生成对应的FLAME参数，从而预测嘴型。
为了避免声音讯号中的回音现象，使用了VAD技术。
生成的人物面部形状是随机选择的。

模型

整体的框架是基于MoGlow的。模型一共有四种输入：演讲者的声音，演讲者的面部特征，聆听者的声音，聆听者前一个时间点的面部特征。
四个输入都是由分别独立的GRU来编码的，模型会拿到一个固定长度的sequence，然后输出这个时间点的特征。输出的特征会合并到一起然后再输入到MoGlow当中。

评价

因为没有特别有代表性的评价指数，所以考虑用众包的方式来完成模型评估。
每个众包工人都要求回答以下五个问题：
1.生成视频的表情是否合适
2.演讲者是否对聆听者产生了影响
3.演讲者表情信息的重要性有多少
4.演讲者声音信息的重要性有多少
5.引入了反例的训练是否比没引入的效果要好

深蓝蓝蓝蓝蓝

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[IVA2020-best]Let’s Face It: Probabilistic Multi-modal Interlocutor-aware Generation of Facial

目标生成人与人之间的交流视频。具体来说，就是在一组交流中，给出其中一个人(演讲者)的视频，生成另一个人(聆听者)的视频。优点1.提出了一个表达多模态，多对象的序列信息的方式2.使用了MoGlow来建模3.提出了通过众包来完成模型评价的方式数据图像先将视频按照25fps的速度转换成图片，然后用openface来提取landmark。提取的landmark用来决定截图大小。之后将截好的...
复制链接

扫一扫