Transformer相关的问题解读

Transformer相关的问题探讨

  • attention
    • Transformer中的self-attention为什么Q和K使用不同的权重矩阵生成,为何没有使用同一个值进行自身的点乘?
      • 使用不同的权重矩阵生成的QKV可以保证word emdedding在不同空间进行投影,增强了表达能力,提高了泛化能力。
    • Multi-head Attention的意义
      • 多头注意力机制保证了transformer可以注意到不同子空间的信息,捕捉到更加丰富的特征信息;可以类比CNN中同时使用多个滤波器。
    • Self-attention计算时为什么在进行softmax之前需要除以dk的平方根
      • 对梯度进行scale,缓解梯度消失的问题,dk的平方根是根据经验选择的参数
  • 工程化
    • transfomer的并行化
      • 在encoder和decoder的训练阶段可以进行并行训练,通过teacher-forcing和sequence mask,但在transformer推理时无法进行并行,需要单步自回归推理,类似于RNN。
  • mask机制
    • transformer中的两个mask机制(transformer中包含padding mask和sequence mask,padding mask的目的是让padding不够长补0的部分不参与attention操作,sequence mask的目的是保证decider生成当前词语的概率分布时,只看到过去的信息,不用看到未来的信息,保证训练和测试的一致性。)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值