NLP-SR-LAS模型笔记

1、LAS:Listen,Attend,and Spell

2、①seq2seq:一种重要的RNN模型,也称为Encoder-Decoder模型,可理解为一种N×M的模型。模型包含两部分:Encoder用于编码序列的信息,将任意长度的序列信息编码到一个向量c里,将一个可变长度的信号序列变成固定长度的向量表达。而Decoder是解码器,解码器得到上下文信息向量C之后可以将信息解码,并输出为序列,将这个固定长度的向量变成可变长度的目标信号序列。seq2seq模型结构有很多种,结构差异主要存在与decoder部分。通常encoder和decoder均采用RNN结构如LSTM或GRU等。可用于机器翻译、文本生成、语言模型、语音识别等领域。

②基于注意力的seq2seq:相较于普通的seq2seq模型多了个注意力层。简单来说不再由encoder直接将数据传给decoder,而是经过一个注意力层对encoder的输出进行加权,区分出对当前预测重要的数据,再根据这些重要的数据进行预测。

一、Listen

1.目标:杂讯去掉,只留下与语音辨识相关的信息

2.x1x2-b1

x1x2x3-b2

x2x3x4-b3

所以b1、b2、b3相当于已经包含了完整的神经系统

3.CNN+RNN组合搭配很常用。一般前几层用CNN,后几层用RNN

4.我们要对输入做down sampling

二、Attention

1、z0-vector match-function 最后得出一个数值α01

三、Spell

  1. C0-context vector

C0 有很多用法,input是常用用法

2.所有tokens的几率和是1

然后一直循环。。。

四、Beam Search

本来我们应该在这些路径中选几率最大的那个,但这样一直走到最后不一定也不一定会选到几率最大的

而我们的解决方法:beam search。可以每次保留两个最佳路径

五、Traning

我们要告诉系统当看到c时就输出a

训练目标:我们知道第一个正确字母是c;所以c在第一个distribution中的几率越大越好。把正确答案放在训练的process中,即是teacher forcing。

ps:Attention

以下两种的差异是attention得到的结果是下一个使用还是这个立刻使用

两种结合be like:

(硬trian一发:不管什么问题,都可以用神经网络来解决)

最后,LAS的局限性:

(不能做实时online recognition)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值