NLP-SR-LAS模型笔记

本文介绍了NLP中的LAS模型,包括Listen、Attention和Spell三个部分。Listen阶段通过CNN+RNN组合进行信号处理;Attention层引入注意力机制,强调重要信息;Spell则利用上下文向量进行序列生成。训练中采用Teacher Forcing策略,并通过Beam Search优化解码过程。然而,LAS模型不适用于实时在线识别。
摘要由CSDN通过智能技术生成

1、LAS:Listen,Attend,and Spell

2、①seq2seq:一种重要的RNN模型,也称为Encoder-Decoder模型,可理解为一种N×M的模型。模型包含两部分:Encoder用于编码序列的信息,将任意长度的序列信息编码到一个向量c里,将一个可变长度的信号序列变成固定长度的向量表达。而Decoder是解码器,解码器得到上下文信息向量C之后可以将信息解码,并输出为序列,将这个固定长度的向量变成可变长度的目标信号序列。seq2seq模型结构有很多种,结构差异主要存在与decoder部分。通常encoder和decoder均采用RNN结构如LSTM或GRU等。可用于机器翻译、文本生成、语言模型、语音识别等领域。

②基于注意力的seq2seq:相较于普通的seq2seq模型多了个注意力层。简单来说不再由encoder直接将数据传给decoder,而是经过一个注意力层对encoder的输出进行加权,区分出对当前预测重要的数据,再根据这些重要的数据进行预测。

一、Listen

1.目标:杂讯去掉,只留下与语音辨识相关的信息

2.x1x2-b1

x1x2x3-b2

x2x3x4-b3

所以b1、b2、b3相当于已经包含了完整的神经系统

3.CNN+RNN组合搭配很常用。一般前几层用CNN,后几层用RNN

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值