【每日一问】transformer中的self-attention中为什么要除以dk?

首先来看公式:
在这里插入图片描述
这是论文Attention Is All You Need中用于计算注意力机制的公式。
有聪明的观众可能要问了,为什么要除以dk?这也是大模型面试中常问的内容。
实际上,当计算的向量比较大的时候,结果值之间的差距同样会变大,值大的softmax函数结果更加靠近1,而其他结果更加靠近0。这样做可以防止梯度消失,
因此,为了保持稳定性并减小点积的幅度,通常将点积结果除以 dk,这样做可以避免softmax饱和以及稳定梯度。

你学到了吗?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值