transformer学习

参考文献

详解Transformer( Attention is all you need)
transformer代码

代码

  • 注意力机制中的mask是怎么回事?将注意力(QK)ij中不存在的项去掉。例如句子最大长度为10,其中一个句子的长度为5,那么j>5的项就不用算了。在机器翻译中,翻译到第i个词时,算自注意力时看不到j>i的K,因此这些j>i的项应该mask掉,注意力矩阵为下三角阵。
  • y_ = label_smoothing(tf.one_hot(y, depth=self.hp.vocab_size))的作用?加入后效果有少量提升。
  • lr = noam_scheme(self.hp.lr, global_step, self.hp.warmup_steps)的作用?让学习率先上升后下降。
  • ln(inputs, epsilon = 1e-8, scope=“ln”)中outputs = gamma * normalized + beta的gamma 和beta有什么用?
  • 代码中enc *= self.hp.d_model**0.5 # scale的作用?
# embedding
enc = tf.nn.embedding_lookup(self.embeddings, x) # (N, T1, d_model)
enc *= self.hp.d_model**0.5 # scale
  • tf.summary.image用法对吗?效果是什么?
attention = tf.transpose(outputs, [0, 2, 1])
tf.summary.image("attention", tf.expand_dims(attention[:1], -1))
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

xxaxtt

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值