时间卷积网络(TCN)在唇语识别中的应用


前言

唇语识别是深度学习领域极具挑战性的课题,主要表现在两方面:一是技术的复杂性,例如, 前期对唇部的识别和特征提取涉及到目标检测算法,后期对语义的分析又用到时序性神经网络甚至NLP技术;二是唇语识别的实用较为困难,由于其数据受光照、距离、角度、唇形等多种条件影响,给特征提取带来了很多挑战。
随着人工智能的发展,唇语识别的算法模型也从原来的机器学习算法HMM(隐马尔科夫模型)发展到RNN,再到后来的LSTM、GRU、Bi-LSTM、Bi-GRU等RNN的多个变种,而最新的成果(SOTA)则采用了表现优异的新的时序处理算法:Temporal Convolutional Network(TCN)。可见,唇语识别的发展对时序性算法十分依赖。
本文着眼于2020年两篇采用TCN算法的最新唇语识别论文,以此为目标对TCN的内容及其应用进行了详细分析


一、TCN的发展与应用

TCN最早由Colin Lea在2016年提出,文章题为:《Temporal Convolutional Networks for Action Segmentation and Detecton》Colin等人表明TCN的设计期初用于视频中人物行为的识别和分割。2018年,Shaojie Bai等在此基础上更进一步,在《An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling》中对TCN进行了进一步的完善和创新,至此TCN技术已完全成熟。
随后,2020年TCN算法即被运用在唇语识别中《LIPREADING USING TEMPORAL CONVOLUTIONAL NETWORKS》,Brais Martinez在文中表明用MS-TCN取代了Bi-GRU,实现了SOTA的效果。不久Pingchuan Ma等在2020年年底再次刷新唇语识别成绩(《Lip-reading with Densely Connected Temporal Convolutional Networks》),其在文中提出一种DC-TCN,是当前词级别(以词为单位)唇语识别领域的最好成绩。

二、TCN详解

三、MS-TCN用于唇语识别

四、DC-TCN用于唇语识别

总结

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值