Transformer细节（四）——详解Transformer解码器的数据处理是并行or顺序

多学学多写写

已于 2024-06-22 11:44:18 修改

阅读量815

点赞数 5

文章标签： transformer 深度学习人工智能

于 2024-06-22 11:20:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47129891/article/details/139879329

版权

一、并行计算在训练阶段的解码器

在训练阶段，解码器接收目标序列的前缀（即已生成部分）作为输入，并且目标序列的真实值是已知的。由于所有时间步的目标序列都已知，因此解码器可以并行计算每个时间步的输出。

1.教师强制（Teacher Forcing）

教师强制是训练序列到序列模型的一种技术。在这种方法中，解码器在每个时间步都接收真实的目标序列的前一个词作为输入，而不是它在前一个时间步生成的词。这意味着：

（1）解码器在时间步 \( t \) 的输入是目标序列在时间步 \( t-1 \) 的真实词。
（2）这样所有时间步的输入都是已知的，可以并行计算。

2.解码器的并行计算

由于教师强制，解码器可以并行处理目标序列的每个时间步。具体步骤如下：

（1）编码器处理源序列
编码器将源序列 \( X \) 编码成一系列隐状态表示。

（2）解码器处理目标序列前缀
目标序列前缀（例如，对于目标序列 "I am a student"，目标序列前缀是 "\<start> I am a"）通过词嵌入和位置编码处理后，输入到解码器。
解码器的自注意力层和编码器-解码器注意力层能够并行处理目标序列的所有时间步，因为所有输入都是已知的。

（3）并行计算输出
解码器的各个时间步的计算（包括自注意力计算和前馈神经网络计算）都是并行进行的，生成每个时间步的预测输出。

二、顺

最低0.47元/天解锁文章

多学学多写写

博客等级

码龄5年

21
原创

353
点赞

347
收藏

302
粉丝

关注

私信

热门文章

最新评论

对于点云处理的局部自注意力方法总结
mastre1: 3的关键点你是用什么方法提取的，准确率怎么样
给论文增光添彩——常用局部自注意力方法总结
clh2022: 博主您好，我目前在做位姿估计算法，我遇到了一个问题，我通过不同的网络提取了2D关键点和3D关键点，我想通过一个网络融合成一个更加准确的3d关键点，初步计划是通过注意力机制，想问问博主有什么算法推荐吗
对于点云处理的局部自注意力方法总结
clh2022: 博主您好，我目前在做位姿估计算法，我遇到了一个问题，我通过不同的网络提取了2D关键点和3D关键点，我想通过一个网络融合成一个更加准确的3d关键点，初步计划是通过注意力机制，想问问博主有什么算法推荐吗
Transformer细节（五）——详解Transformer解码器的自注意力层和编码器-解码器注意力层数据处理机制
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Transformer细节(一)——掩码机制
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/619064297。

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。