第一遍
- 题目:Attention is all you need
- 作者:Ashish Vaswani 谷歌大脑实验室
- 摘要:
- 提出一个纯使用注意力机制的编码-解码器
- 优点:机器翻译任务上,模型具有更好的表现,且训练时间更短(并行能力强)
- Transformer成功用于英语的constituency parsing
- 结论:
- 展望:使用局部的受限自注意力机制去处理图片、语音和视频
第二遍
重要的图和表
-
图1 模型结构
主要由编码器和解码器组成,
-
图 2. 按比例点乘注意力模块
- 注意力机制的理解,Q表示查询,K-V表示键值对,还有输出,它们都是向量。
- 输出可以理解为V的某种加权和
- 加权值的获取是通过Q去查询K
- 个人理解:K-V是字典,Q可以在字典中查询到它表示的含义。
多头注意力,可以看成是图片中的多个通道,对应于文字就是多语义空间
-
Table 1.
n表示序列长度,d是隐藏层维度,k表示卷积核尺寸,r表示受限自注意力的窗口大小
-
Table 2.
比较Tranformer和其他模型在两个任务上的BLEU和时间花费
-
Table 3.
调整模型超参数的结果
-
Table 4.
第三遍
-
介绍
- 循环神经网络顺序计算的约束限制了并行
- 注意力机制允许对依赖关系建模,而不考虑它们在输入或输出序列中的距离
-
回顾
- 自我注意(Self-attention),有时也称为内部注意(intra-attention),是一种将单个序列的不同位置联系起来,以计算该序列的表示的注意机制。
-
模型框架
-
编码器
多头自注意力层+对应位置的前馈网络
解码器
额外增加了带掩码的自注意力层
-
注意力机制
-
按比例缩小的点乘注意力机制
按比例缩小的原因:
-
向量点积衡量的是两个向量在高维空间中的距离,那么空间维度越大,这个值可能偏大或者偏小,偏小没有影响,那么dk越大,在softmax中容易向量两端值较大,中间的值较小,不利于softmax反向传播
-
对于文本来说,句子越长就越难描述其中相距较远的两个词,因此通过同比例缩小可以缓解
-
-
-
多头注意力机制
注意力类型 QKV 编码-解码注意力 Q来自之前的解码器,KV来自当前的编码器的输出 编码-编码注意力 QKV都来自上一层编码器的输出 解码-解码注意力 QKV都来自上一层解码器的输出,但是需要mask之前的位置 -
基于位置的前馈网络
- 带有ReLU的隐藏层
-
位置编码
-
-
为什么自注意力
-
计算复杂度降低了且可以并行
-
神经网络中远程依赖关系之间的路径长度降低了。
-
-
训练过程
-
结论
问题
问题 | 来源 | 解决 |
---|---|---|
什么是自回归 | 图1 | 过去时刻的输出也可以作为下一时刻的输入 |
constituency parsing | 摘要 | 成分句法分析 |
计算复杂度的方法 | 表1 | 计算序列长度为n,token维度为d |
记忆约束限制了跨示例的批处理 | 介绍 | 无法并行 |