Attention

Dotproduct Attention:

Multihead Attention:

1.假设有h个头,先将Q,K,V映射成d/h维的矩阵后求h个Attention再Concat成d维的矩阵,类似于卷积层里面的通道

Self-Attention:

Q=K=V的Attention,Transformer的输入和输出在进入Stack后的第一个Attention就会复制三份。

Transformer:

Encoder:

Multihead-Self Attention:多头自注意力

FFN(feed-forward-network):单隐藏层的投影机,中间扩大4倍维度成2028后再缩小回到512。

Positional Encoding:位置矩阵,可学习。

每个Sub-layer的输出可以表示为:layernorm(X+sublayer(X))

Decoder:

Masked-Multihead-Self Attention: Masked的作用就是在算第t个query输出的时候,不会受后面t+1,...,n的query影响(将其的权重设置为0)

Multihead-Attention:和Encoder的区别,不是自注意力的Attention。将编码器的输出设为V和K,解码器的输出设为Q。这层layer的输出权重取决于解码器输出与编码器输出的相似程度。

GitHub:

GitHub - thomlake/pytorch-attention: pytorch neural network attention mechanism(对mask机制和Attention在不同机制下求权的过程)

视频讲解:

https://www.bilibili.com/video/BV1pu411o7BE/?spm_id_from=333.999.0.0&vd_source=7330c7578114decd9bf0f1f454e29572 | batchnomalization和 layernomalization 之间的区别

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值