transformer

最新推荐文章于 2023-09-26 14:15:44 发布

究极菜购

最新推荐文章于 2023-09-26 14:15:44 发布

阅读量958

点赞数

文章标签： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43846919/article/details/123796652

版权

Encoder

输入b经过self-attention后得到向量a，运用残差连接，将a加上输入的b，得到最终输出，送入layer-normalization

layer-norm：计算输入向量的均值m和标准差 $\sigma$ ，运用上边的公式将对应的Xi转换，等式右边是Xi，不是 ${X\, i}'$ ，输出

输出的结果送入fully-connection，同样运用残差连接，加和后的结果再次进行layer-norm，最后输出

Positional Encoding：加上位置信息

Add & Norm：residual + layer-norm

Decoder

decoder首先会接收一个special token：begin作为开始信号

最终的输出由vocabulary+概率决定，上图表格左侧是vocabulary里所有的字，比如语音识别，那么左侧就是所有的中文字，可能有一千个一万个，视具体的业务情况而定。表格右侧是每个字对应的概率，概率最大的那个就是最终的输出，上图机为0.8，其他的都很小，那么就输出机。

vocabulary最后添加一个token：end，代表结束了，decoder看到输入是end，就结束。什么时候输出end是由机器自己决定的，这就叫autoregressiive

所以decoder的输入，除了一开始的begin这个token，其它的都是上一时刻decoder自己输出的向量，此时如果上一个时刻输出了错误的向量，后续就会有问题

Masked Self-attention：计算b1时，只考虑a1，不考虑a2a3a4；计算a2时，只考虑a1a2，不考虑a3a4；计算a4时，考虑a1到a4。因为decoder的输入是顺序生成的，不是同时存在的，所以只能考虑已经存在的

encoder和decoder连接部分

decoder输入的向量，取它的q，从encoder取所有向量的k v，重复自注意力那一套计算attention score，其他的都一样

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
transformer

Encoder输入b经过self-attention后得到向量a，运用残差连接，将a加上输入的b，得到最终输出，送入layer-normalizationlayer-norm：计算输入向量的均值m和标准差，运用上边的公式将对应的Xi转换，等式右边是Xi，不是，输出输出的结果送入fully-connection，同样运用残差连接，加和后的结果再次进行layer-norm，最后输出Positional Encoding：加上位置信息Add & Norm：residua..
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。