【论文笔记】Learn Spelling from Teachers: Transferring Knowledge from LM to Seq-to-Seq Speech Recognition

题目

Learn Spelling from Teachers: Transferring Knowledge from Language
Models to Sequence-to-Sequence Speech Recognition

链接

https://arxiv.org/pdf/1907.06017.pdf

标签

知识蒸馏, 外部语言模型, 端到端, sequence-to-sequence

Contributions

基于知识蒸馏的思想,在训练阶段,以一个预训练的基于RNN的LM作为“老师”模型得到软标签(soft label),并以此"指导"一个基于Transformer的seq2seq的模型训练(拟合老师模型的softmax分布)
在这里插入图片描述

亮点与启发

文章指出:

  • 类似于LAS的seq-to-seq模型中的语言模型是一个受限制的语言模型(conditional),原因在于其是基于声音-文字这种成对数据训练的,这种数据相对较少,相比于由大量纯文本语料库训练出来的语言模型,准确率相对较低,故为受限。
  • 传统的语言模型融合方式(Shallow fusion / Deep fusion等)会增加模型本身的复杂度,特别是在测试阶段也需要其参与。
  • soft labels比hard labels包含着更多的信息,其概率分布信息更加柔和,更利于另一个模型进行拟合
    在这里插入图片描述

文章重点

使用KL散度(Kullback-Leibler divergence),即相对熵作为描述学生模型与老师模型输出概率分布的相似性,并作为最终的损失函数的重要组成部分。
在这里插入图片描述

而在最终的损失函数中,采用一个参数λ ∈ [0, 1]来权衡seq2seq模型本身与LST(Learn Spelling from Teachers)各自分布所占的比重:
在这里插入图片描述
最关键的是,这样训练出来的模型,在测试阶段完全可以去掉语言模型参与测试,在减小模型复杂度的同时保持较高准确率。

实验结果

在这里插入图片描述

持续记录关于端到端语音识别论文与资料:
https://github.com/zyascend/End-to-End-Speech-Recognition-Learning

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值