【自然语言处理】Transformer 讲解

不牌不改

已于 2024-01-08 15:51:39 修改

阅读量659

点赞数 2

分类专栏：【NLP & CV】文章标签：自然语言处理 transformer 深度学习人工智能神经网络

于 2023-03-02 09:54:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46221946/article/details/129294826

版权

【NLP & CV】专栏收录该内容

47 篇文章 4 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文深入讲解了Transformer模型，它摒弃了RNNs和CNNs，完全基于注意力机制。文章详细介绍了Transformer的模型结构，包括自注意力机制、多头注意力、按位置操作的前馈神经网络、残差连接和层规范化、位置编码以及掩码机制。自注意力机制通过计算Query、Key和Value的相似度，捕捉序列中元素间的关系。多头注意力则从不同角度理解序列，每个头使用独立的参数。位置编码则补充了模型对序列顺序的缺失信息。掩码机制确保在训练和推断过程中正确处理序列信息。

摘要由CSDN通过智能技术生成

有任何的书写错误、排版错误、概念错误等，希望大家包含指正。

在阅读本篇之前建议先学习：
【自然语言处理】Seq2Seq 讲解
 【自然语言处理】Attention 讲解

Transformer

为了讲解更加清晰，约定“预测阶段”被称为“推断阶段”（inference），“预测”用于表示模型根据输入信息输出目标信息的抽象过程。

1. 简介

在 Transformer 出现之前，大部分序列转换（转录）模型是基于 RNNs 或 CNNs 的 Encoder-Decoder 结构。但是 RNNs 固有的顺序性质使得并行计算难以实现，即训练时当前时刻的隐藏状态与前一个时刻的隐藏状态有关，这意味着需要先计算出前一个时刻的状态才能计算下一个时刻的状态，这大大限制了 RNNs 的训练速度；CNNs 可以比较好的解决并行计算的问题，但是对于长序列 CNNs 难以建

了解本专栏

超级会员免费看

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
1
评论
【自然语言处理】Transformer 讲解

Transformer 多头注意力 Multi-Head self-attention sequence transduction models Encoder-Decoder Seq2Seq Position-wise Feed-Forward Networks 残差层规范化 Layer Normalization Batch Normalization positional encoding Sequence Mask Padding Mask CNN RNN Scaled Dot-Product
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

不牌不改 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。