1、LAS:Listen,Attend,and Spell
2、①seq2seq:一种重要的RNN模型,也称为Encoder-Decoder模型,可理解为一种N×M的模型。模型包含两部分:Encoder用于编码序列的信息,将任意长度的序列信息编码到一个向量c里,将一个可变长度的信号序列变成固定长度的向量表达。而Decoder是解码器,解码器得到上下文信息向量C之后可以将信息解码,并输出为序列,将这个固定长度的向量变成可变长度的目标信号序列。seq2seq模型结构有很多种,结构差异主要存在与decoder部分。通常encoder和decoder均采用RNN结构如LSTM或GRU等。可用于机器翻译、文本生成、语言模型、语音识别等领域。
②基于注意力的seq2seq:相较于普通的seq2seq模型多了个注意力层。简单来说不再由encoder直接将数据传给decoder,而是经过一个注意力层对encoder的输出进行加权,区分出对当前预测重要的数据,再根据这些重要的数据进行预测。
一、Listen
1.目标:杂讯去掉,只留下与语音辨识相关的信息
2.x1x2-b1
x1x2x3-b2
x2x3x4-b3
所以b1、b2、b3相当于已经包含了完整的神经系统
3.CNN+RNN组合搭配很常用。一般前几层用CNN,后几层用RNN