[IVA2020-best]Let’s Face It: Probabilistic Multi-modal Interlocutor-aware Generation of Facial

标题:Let's Face It: Probabilistic Multi-modal Interlocutor-aware Generation of Facial Gestures in Dyadic Settings
链接:https://arxiv.org/pdf/2006.09888

目标

生成人与人之间的交流视频。具体来说,就是在一组交流中,给出其中一个人(演讲者)的视频,生成另一个人(聆听者)的视频。

优点

1.提出了一个表达多模态,多对象的序列信息的方式
2.使用了MoGlow来建模
3.提出了通过众包来完成模型评价的方式

数据

图像
先将视频按照25fps的速度转换成图片,然后用openface来提取landmark。提取的landmark用来决定截图大小。之后将截好的图放入ringnet来估测初始的flame参数。landmark和flame参数会被一起送到flame fitter中来产生最终的flame参数。最终会得到一个100D表情维度+12D旋转维度+300D形状维度的向量。在表情维度中只取用前50维,然后加上下巴和脖子旋转的六维组合成面部特征。然后还进行了时间维度上的平滑化处理。声音
声音讯号是提取了25维的MFCC和一维的能量,然后还提取了声音的音高,音色之类的讯息。一共有30维。
使用Voca,通过声音讯号来生成对应的FLAME参数,从而预测嘴型。
为了避免声音讯号中的回音现象,使用了VAD技术。
生成的人物面部形状是随机选择的。

模型

整体的框架是基于MoGlow的。模型一共有四种输入:演讲者的声音,演讲者的面部特征,聆听者的声音,聆听者前一个时间点的面部特征。
四个输入都是由分别独立的GRU来编码的,模型会拿到一个固定长度的sequence,然后输出这个时间点的特征。输出的特征会合并到一起然后再输入到MoGlow当中。

评价

因为没有特别有代表性的评价指数,所以考虑用众包的方式来完成模型评估。
每个众包工人都要求回答以下五个问题:
1.生成视频的表情是否合适
2.演讲者是否对聆听者产生了影响
3.演讲者表情信息的重要性有多少
4.演讲者声音信息的重要性有多少
5.引入了反例的训练是否比没引入的效果要好

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值