标题:Let's Face It: Probabilistic Multi-modal Interlocutor-aware Generation of Facial Gestures in Dyadic Settings
链接:https://arxiv.org/pdf/2006.09888
目标
生成人与人之间的交流视频。具体来说,就是在一组交流中,给出其中一个人(演讲者)的视频,生成另一个人(聆听者)的视频。
优点
1.提出了一个表达多模态,多对象的序列信息的方式
2.使用了MoGlow来建模
3.提出了通过众包来完成模型评价的方式
数据
图像
先将视频按照25fps的速度转换成图片,然后用openface来提取landmark。提取的landmark用来决定截图大小。之后将截好的图放入ringnet来估测初始的flame参数。landmark和flame参数会被一起送到flame fitter中来产生最终的flame参数。最终会得到一个100D表情维度+12D旋转维度+300D形状维度的向量。在表情维度中只取用前50维,然后加上下巴和脖子旋转的六维组合成面部特征。然后还进行了时间维度上的平滑化处理。声音
声音讯号是提取了25维的MFCC和一维的能量,然后还提取了声音的音高,音色之类的讯息。一共有30维。
使用Voca,通过声音讯号来生成对应的FLAME参数,从而预测嘴型。
为了避免声音讯号中的回音现象,使用了VAD技术。
生成的人物面部形状是随机选择的。
模型
整体的框架是基于MoGlow的。模型一共有四种输入:演讲者的声音,演讲者的面部特征,聆听者的声音,聆听者前一个时间点的面部特征。
四个输入都是由分别独立的GRU来编码的,模型会拿到一个固定长度的sequence,然后输出这个时间点的特征。输出的特征会合并到一起然后再输入到MoGlow当中。
评价
因为没有特别有代表性的评价指数,所以考虑用众包的方式来完成模型评估。
每个众包工人都要求回答以下五个问题:
1.生成视频的表情是否合适
2.演讲者是否对聆听者产生了影响
3.演讲者表情信息的重要性有多少
4.演讲者声音信息的重要性有多少
5.引入了反例的训练是否比没引入的效果要好