读论文——Transform

第一遍

  1. 题目:Attention is all you need
  2. 作者:Ashish Vaswani 谷歌大脑实验室
  3. 摘要:
    1. 提出一个纯使用注意力机制的编码-解码器
    2. 优点:机器翻译任务上,模型具有更好的表现,且训练时间更短(并行能力强)
    3. Transformer成功用于英语的constituency parsing
  4. 结论:
    1. 展望:使用局部的受限自注意力机制去处理图片、语音和视频

第二遍

重要的图和表

  1. 图1 模型结构

    在这里插入图片描述

    主要由编码器和解码器组成,

  2. 图 2. 按比例点乘注意力模块

    在这里插入图片描述

    • 注意力机制的理解,Q表示查询,K-V表示键值对,还有输出,它们都是向量。
    • 输出可以理解为V的某种加权和
    • 加权值的获取是通过Q去查询K
    • 个人理解:K-V是字典,Q可以在字典中查询到它表示的含义。

    在这里插入图片描述

    多头注意力,可以看成是图片中的多个通道,对应于文字就是多语义空间

  3. Table 1.

    在这里插入图片描述

    n表示序列长度,d是隐藏层维度,k表示卷积核尺寸,r表示受限自注意力的窗口大小

  4. Table 2.

    在这里插入图片描述

    比较Tranformer和其他模型在两个任务上的BLEU和时间花费

  5. Table 3.

    在这里插入图片描述

    调整模型超参数的结果

  6. Table 4.

    在这里插入图片描述

第三遍

  1. 介绍

    1. 循环神经网络顺序计算的约束限制了并行
    2. 注意力机制允许对依赖关系建模,而不考虑它们在输入或输出序列中的距离
  2. 回顾

    1. 自我注意(Self-attention),有时也称为内部注意(intra-attention),是一种将单个序列的不同位置联系起来,以计算该序列的表示的注意机制。
  3. 模型框架

    1. 编码器

      在这里插入图片描述

      ​ 多头自注意力层+对应位置的前馈网络

      解码器

      在这里插入图片描述

      ​ 额外增加了带掩码的自注意力层

    2. 注意力机制

      1. 按比例缩小的点乘注意力机制

        在这里插入图片描述

        按比例缩小的原因:

        1. 向量点积衡量的是两个向量在高维空间中的距离,那么空间维度越大,这个值可能偏大或者偏小,偏小没有影响,那么dk越大,在softmax中容易向量两端值较大,中间的值较小,不利于softmax反向传播

        2. 对于文本来说,句子越长就越难描述其中相距较远的两个词,因此通过同比例缩小可以缓解

    3. 多头注意力机制

      注意力类型QKV
      编码-解码注意力Q来自之前的解码器,KV来自当前的编码器的输出
      编码-编码注意力QKV都来自上一层编码器的输出
      解码-解码注意力QKV都来自上一层解码器的输出,但是需要mask之前的位置
    4. 基于位置的前馈网络

      1. 带有ReLU的隐藏层
    5. 位置编码

  4. 为什么自注意力

    1. 计算复杂度降低了且可以并行

    2. 神经网络中远程依赖关系之间的路径长度降低了。

      在这里插入图片描述

  5. 训练过程

  6. 结论

问题

问题来源解决
什么是自回归图1过去时刻的输出也可以作为下一时刻的输入
constituency parsing摘要成分句法分析
计算复杂度的方法表1计算序列长度为n,token维度为d
记忆约束限制了跨示例的批处理介绍无法并行
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值