transformer详解

最新推荐文章于 2024-06-13 22:11:14 发布

xiaoxiaoqian0519

最新推荐文章于 2024-06-13 22:11:14 发布

阅读量498

点赞数

文章标签：自然语言处理

本文链接：https://blog.csdn.net/xiaoxiaoqian0519/article/details/112602452

版权

Transformer模型由encoder和decoder组成，每个部分包含多个相同的layer，每个layer由self-attention机制和全连接前馈网络构成。encoder中，multi-head self-attention通过不同线性变换处理Q, K, V，而decoder在encoder基础上增加了一个额外的attention sub-layer，用于解码过程。解码时，由于需要避免未来信息泄漏，使用了特殊的mask机制。" 53340396,1439920,C#控制应用程序窗口状态：最小化与最大化,"['c#', 'winform']

摘要由CSDN通过智能技术生成

总体结构

encoder和decoder分别利用6个encoder和decoder组成，简化结构表示如下：
transformer总结结构
每个encoder和decoder的简化结构如下所示：
encoder和decoder结构
处理流程：首先对输入的数据进行一个embedding操作，embedding结束之后将结果输入到encoder层，self-attention处理完数据将结果送给前馈神经网络，得到的输出结果会输入到下一层encoder；

encoder

encoder是由N=6个相同的layer组成，layer指的是上图左侧的单元，最左边有个"Nx",这里的x是6，每个layer由两个sub-layer组成，分别是multi-head self-att

最低0.47元/天解锁文章

xiaoxiaoqian0519

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
transformer详解

总体结构encoder和decoder分别利用6个encoder和decoder组成，简化结构表示如下：每个encoder和decoder的简化结构如下所示：处理流程：首先对输入的数据进行一个embedding操作，embedding结束之后将结果输入到encoder层，self-attention处理完数据将结果送给前馈神经网络，得到的输出结果会输入到下一层encoder；encoderencoder是由N=6个相同的layer组成，layer指的是上图左侧的单元，最左边有个"Nx",这里的
复制链接

扫一扫