李宏毅深度学习 Transformer

一、Transformer是什么

1、sequence-to-sequence

(1)sequence-to-sequence应用

a、sequence-to-sequence for 语音

  • 输入序列,输出的序列长度由机器决定
    在这里插入图片描述
    在这里插入图片描述
  • 语音辨识VS语音合成
    eg:输入方言输出中文——语音辨识
    输入中文输出语音——语音合成
    在这里插入图片描述
  • 现在的台语辨识是一个两阶段,第一阶段台语转中文,第二阶段中文转台语。第二阶段可以看成transformer的网络
    b、sequence-to-sequence for chat
    QA问题
    在这里插入图片描述
    c、sequence-to-sequence for 文法剖析
    在这里插入图片描述
    d、sequence-to-sequence for 多标签分类
    在这里插入图片描述
  • 一篇文章可以属于多个类别,而Sequence-to-Sequence输出是由机器决定长度,所以可以用Sequence-to-Sequence模型
    e、sequence-to-sequence for Object Detection
    在这里插入图片描述
    Seq2Seq总结

(2)Encoder

在这里插入图片描述

  • Encoder的做法:
    在这里插入图片描述
  • 一个block输入输出过程:
    在这里插入图片描述
    在这里插入图片描述
  • transformer是对位置不敏感的模型,所以需要positional encoding

(3)Decoder

a、Autoregressive(以语音辨识为例介绍)
在Encoder中所做的工作是输入一段向量序列输出一段向量序列然后进入Decoder
在这里插入图片描述
b、Decoder的内部结构
在这里插入图片描述
mask attention
在这里插入图片描述

  • 输出b2只考虑了a1、a2
  • 为什么要用maskd呢?输出的东西是一个一个产生的
    在这里插入图片描述
  • 最后一个词输入要输出end这个符号

c、Non-Autoregressive

  • 一下子输出一句话
    在这里插入图片描述
    d、Decoder的具体介绍
    在这里插入图片描述
  • cross attention
    在这里插入图片描述

二、训练Transformer的Tips

1、Copy Mechanism

从输入复制东西

  • chat-bot
    在这里插入图片描述
  • 摘要
    在这里插入图片描述

2、Guided Attention

输入和输出要对齐(也就是输入的每一个内容都很重要,不能漏)
对语音合成、语音辨识比较重要
在这里插入图片描述

3、Beam Search(波束搜索)

在这里插入图片描述

  • beam search是对贪心策略一个改进。思路也很简单,就是稍微放宽一些考察的范围。在每一个时间步,不再只保留当前分数最高的1个输出,而是保留num_beams个。当num_beams=1时集束搜索就退化成了贪心搜索
  • 下图是一个实际的例子,每个时间步有ABCDE共5种可能的输出,即,图中的num_beams=2,也就是说每个时间步都会保留到当前步为止条件概率最优的2个序列
    在这里插入图片描述

4、Scheduled Sampling

测试可能会某个输出错误而导致后面的错误
在这里插入图片描述

  • 解决方法:训练的时候给错误的东西即scheduled sampling
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值