Transformer结构解析和其中的块的原理

SaltyFish_Go

已于 2022-04-16 13:56:10 修改

阅读量1.5k

点赞数 1

分类专栏：动手学深度学习 nlp 文章标签： transformer 深度学习人工智能

于 2022-02-14 14:32:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45169380/article/details/122922284

版权

本文深入解析Transformer架构，重点介绍其纯注意力机制、多头注意力、逐位前馈网络、层归一化及编码器与解码器的交互。在Transformer中，每个块包含多头注意力和逐位前馈网络，层归一化避免了batchnorm在NLP中的问题。解码器中，自我注意力结构与编码器的输出交互，而mask的使用则确保了训练与预测的一致性。

摘要由CSDN通过智能技术生成

目录

多头注意力

transformer的架构

逐位前馈网络

decoder中需要mask的原因

encoder和decoder是如何交互的

transformers学习资料：

1、最好的就是官方文档，地址：🤗 Transformers，需要科学上网

2、一本书的库https://github.com/nlp-with-transformers/notebooks

Transformer是一个使用encoder-decoder架构，纯使用attention注意力机

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Transformer结构解析和其中的块的原理

多头注意力transformer的架构逐位前馈网络层归一化Transformer是一个使用encoder-decoder架构，纯使用attention注意力机制，编码器和解码器中都有很多的transformer块，每个块里都使用了多头注意力，并且用逐位前馈网络，和layer-norm层归一化（batchnorm不适合nlp，因为句子不一样长，维度和特征不一样）。多头注意力通过不同的注意力机制的方法集合concat，也就是用同一对key,val...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。