Paper Reading: Deep Multimodal Speaker Naming

http://herohuyongtao.github.io/research/publications/speaker-naming/
问题描述:

spearking naming(SN): localizing + identifying (each speaking character)

问题的难点在于multimodal.
已有的方法都是分别处理各个modal,然后使用 handcrafted heuristics合并.

本文
- 基于CNN的学习框架来同时利用face和audio两个方面的信息.
- 不需要face tracking, facial landmark localization, subtitle/transcript, 可以获得state-of-the-art的性能.
- train end-to-end
- use only cropped face regions and corresponding audio
- real time

Architecture:
- face feature extractor : CNN, 最后一层是一个vector
- audio feature extractor : MFCC, 结果也是一个vector
- 拼在一起的feature, 后面是几层全连接层, 维度逐渐升高
- 整个网络train end to end
Architecture

Experiment:

三个任务:
- 1) face recognition(using both information)
- 2) identifying non-matched face-audio pairs
- 3)real world SN

具体网络设置:
- 2 个conv(15*15, 5*4)和两个pooling
- 最后一个pooling和fully-connect之间使用7*5的滤波器?
- 两个卷积层的number of feature map: 48 + 256
- 两个fully connected layer: 1024, 2028
- pooling factor : 2

初始参数设置:
- bias term all 0.01( prevent the dead unit caused by rectifier units)
- others, [-1, 1] gaussian,然后根据隐层数量进行scale

加入音频后的网络:
- 训练时,两个feature extractor分别使用预先训练的参数作为初始化.
- 每帧对应的音频, 窗口为20ms(每个音频产生特征维度75)
- 每个脸随机选择5个audio, 这样音频特征就有375

Face recognition accuracy:
- only use face : 86.7%
- use face-audio : 88.5%
- 其他方法: <70%

Identifying Non-matched Pairs, 三个SVM进行二值分类(匹配/不匹配)
- 1使用1024D face-audio model的特征 (82.2%)
- 使用1024D face-alone model的特征+75D audio feature ( 82.9%)
- 实际采用的SVM和第二个参数相同, 仅仅是把1024D face-alone model换成1024D face-audio model (84.1%)

可见face-audio model的特征, 再加入audio特征, 可以获得更高的性能, 在distinguishing non-matched pairs方面

Speaker Naming

其实就是前两个实验的综合版.
先用SVM去掉 non-matched pairs
然后进行recgonize
SN accuracy: Friends 90.5%, BBT 82.9%

@inproceedings{hu2015deep,
  title={{Deep Multimodal Speaker Naming}},
  author={Hu, Yongtao and Ren, Jimmy SJ. and Dai, Jingwen and Yuan, Chang and Xu, Li and Wang, Wenping},
  booktitle={Proceedings of the 23rd Annual ACM International Conference on Multimedia},
  pages={xxx--xxx},
  year={2015},
  organization={ACM}
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值