Transformer

在这里插入图片描述
seq2seq的模型很多,输入一排向量,输出一排向量,可以使用self-attention,rnn,cnn,而transformer使用的就是self-attention

transformer 的Encoder结构

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  1. residual
  2. norm (Layer Norm)

transformer的Decoder - Autoregressive结构

在这里插入图片描述
Autoregressive

这里有一个问题,Decoder的下一个输出为下一个的输入,会不会造成 Error Propagation的问题?

Self-attention ------> Masked Self-attention

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

transformer的Decoder Non-autoregressive结构

在这里插入图片描述

AT vs NAT

在这里插入图片描述

Encoder 和 Decoder的通信

在这里插入图片描述
在两部分的交汇处,即Cross attention的部分,有两块来自Encoder,一块篮子Decoder,

Cross attention的过程

在这里插入图片描述
1.输出BEGIN
在这里插入图片描述

2.输入第一个的输出

在这里插入图片描述
这是一篇用seq2seq做语音辨识的模型,采用了Cross Attention的机制,颜色越深的地方,代表这个位置算出的α的值就大,也就是更有主导的作用

transformer的training tips

在这里插入图片描述

在这里插入图片描述
因为像语音合成相关的任务,输出都从单调从左向右的,但是做predict的时候可能输出时的attention不是从左向右单调的,此时可以使用guided attention来强迫机器学习的时候 的attention时从左向右的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值