Transformer相关的问题解读

oceanWT

已于 2023-01-02 12:18:01 修改

阅读量156

点赞数

文章标签：深度学习人工智能

于 2022-12-23 15:33:56 首次发布

本文链接：https://blog.csdn.net/weixin_50515468/article/details/128420028

版权

attention
- Transformer中的self-attention为什么Q和K使用不同的权重矩阵生成，为何没有使用同一个值进行自身的点乘？
  - 使用不同的权重矩阵生成的QKV可以保证word emdedding在不同空间进行投影，增强了表达能力，提高了泛化能力。
- Multi-head Attention的意义
  - 多头注意力机制保证了transformer可以注意到不同子空间的信息，捕捉到更加丰富的特征信息；可以类比CNN中同时使用多个滤波器。
- Self-attention计算时为什么在进行softmax之前需要除以dk的平方根
  - 对梯度进行scale，缓解梯度消失的问题，dk的平方根是根据经验选择的参数
工程化
- transfomer的并行化
  - 在encoder和decoder的训练阶段可以进行并行训练，通过teacher-forcing和sequence mask，但在transformer推理时无法进行并行，需要单步自回归推理，类似于RNN。
mask机制
- transformer中的两个mask机制（transformer中包含padding mask和sequence mask，padding mask的目的是让padding不够长补0的部分不参与attention操作，sequence mask的目的是保证decider生成当前词语的概率分布时，只看到过去的信息，不用看到未来的信息，保证训练和测试的一致性。）