Time-Delay Neural Network(TDNN)-上

前言

  • 本篇博客仅对TDNN的网络结构进行简单梳理,使读者对TDNN的网络结构有一个清晰直观的印象。博客基于对论文 Phoneme Recognition Using Time-Delay Neural Network 的阅读和理解,如有谬误,还望指出,不胜感激。

正文

  • TDNN与1989年就已提出(在我出生之前), 用于音素识别。以下部分将以论文中的结构做简单说明,网络结构如下图:
    这里写图片描述

  • 这是一个只有4层(包含输入层)的TDNN,每一层的Time-Delay用N表示,单元数用J表示,将逐层介绍。

    • 输入层:N=1(因为输入层特征是单帧提取的), J=16(Mel滤波的维度为16),共15个frame;
    • 第一隐层: N=2, J=8, 共13(15-2) frame, 参数量 8 x (2+1) * 16 = 384;
    • 第二隐层: N=4, J=3, 共9(13-4) frame, 参数量 3 x (4+1) * 8 = 120;
    • 输出层:N=8, J=3, 共1(9-8) frame, 参数量 3 x (8+1) * 3 = 81;
      总的参数量为384 + 120 + 81 = 585,相比现在网络动辄上百万的参数量,简直轻量到不能再轻量了。论文中提到,最后一层再时间维度上共享参数,如此输出层的参数量为 3 x 3 = 9,总的参数量更少。

参考

  1. Phoneme Recognition Using Time-Delay Neural Network
  2. Time-Delay Neural Network
  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值