LLM Tutorial 1. LLM结构 2.Transformer

BeilianMao

已于 2024-05-17 15:56:17 修改

阅读量1k

点赞数 25

文章标签： transformer 深度学习人工智能

于 2024-05-16 23:53:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_58636969/article/details/138941745

版权

Transformer是第一个将注意力机制发挥到机制的encoder-decoder模型，其中encoder component部分由一系列encoder堆叠而成，而decoder component部分由一系列decoder堆叠而成

1. 大致结构

2. Encoder:

1. 每一个Encoder由self-attention层与feed-forward组成

self attention：学习同一个输入序列中不同token之间的关系

这一层从输入序列 $x$ 开始，由 $Q,K,V$ 推导attention score，主要分为以下几个步骤

1) 将输入文本word2vec序列化

2) 序列化token经过投影(简单的全连接层映射，分别对应 $W_Q, W_K, W_V$ ) 得到三个不同的矩阵 $Q, K, V$ .

1. Q主要表征的是当前词与其他词的关系

2. K主要表征的是句子中所有单词的标签

3. V主要是最后输出单词的实际表示

$Q,K,V = Linear(x)$

3）dot product Q, K再经过softmax计算两个向量之间的匹配度/相似度

$g(z) = softmax(QK)$

采用softmax的原因：

1. 归一化：softmax函数会将相似度分数转换为在[0, 1]区间内的概率分布，并且所有概率的和为1。这种归一化处理有助于模型学习和解释每一步的注意力分配，使得模型能够关注更重要的部分。

2. 可微性：softmax函数是可微的，这使得它可以在反向传播过程中有效地更新权重，有助于模型的训练。

3. 非线性特性：引入了非线性特性，这有助于模型捕捉到更复杂的关系。

4）将该匹配度乘以 $V$ 得到最终的注意力

$f(x) = g(softmax(QK)))V$

feed-forward：简单的全连接层网络

为什么Encoder采用这样的两层结构？

1. 在self attention层中，输入序列中的不同token相互连接，相互计算匹配度，而在前馈层中没有涉及匹配度的计算，而是将各匹配度平行地进行后处理

多头注意力

多头注意力将注意力进一步细分，从不同位置间的注意力映射到子空间"representation subspace"中，以应对实际语境中更加错综复杂的代词等

Positional Encoding

输入token序列前为了强调当前token在输入语句中的位置还需要附上位置信息

除了原版的绝对位置信息之外还有后来发展出的强调相对位置信息的旋转位置编码

Ref: https://zhuanlan.zhihu.com/p/454482273

Layer norm

为什么不用batch norm?

- BN在mini-batch较小的情况下不太适用。BN是对整个mini-batch的样本统计均值和方差，当训练样本数很少时，样本的均值和方差不能反映全局的统计分布信息，从而导致效果下降。

因此，BN在RNN类似的不定输入的任务时，效果较差

BN是对batch的维度去做归一化，也就是针对不同样本的同一特征做操作。LN是对hidden的维度去做归一化，也就是针对单个样本的不同特征做操作。因此LN可以不受样本数的限制。

3. decoder

每一个decoder则由self-attention, encoder-decoder attention和feed-forward 组成, decoder结合encoder所计算的注意力，根据当前翻译过的单词 1~ i 翻译下一个单词 i+1，如下图所示。在使用的过程中，翻译到单词 i+1 的时候需要通过 Mask 操作遮盖住 i+1 之后的单词。

self attention与encoder中近乎类似，只有在处理叠加当前所得结果时，会添加mask，保证注意力集中在当前

Encoder-Decoder layer用来接收Encoder所计算得出的QKV注意力分数

整个Decoder的工作以一个起始符开始，以一个结束符结束，期间一个个token，根据之前的预测往前吐

关注

25
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
LLM Tutorial 1. LLM结构 2.Transformer

Transformer是第一个将注意力机制发挥到机制的encoder-decoder模型，其中encoder component部分由一系列encoder堆叠而成，而decoder component部分由一系列decoder堆叠而成。
复制链接

扫一扫

博客等级

码龄3年

7
原创

119
点赞

117
收藏

87
粉丝

关注

私信

热门文章

最新评论

NLP Tutorial 2 Word2Vec
CSDN-Ada助手: 非常感谢您分享了关于NLP中Word2Vec的教程，这对于想深入了解自然语言处理的人来说肯定是非常有帮助的。希望您能继续坚持创作，分享更多有趣的内容。除了Word2Vec，您还可以了解一下其他常用的词嵌入模型，比如GloVe和FastText。这些模型在处理不同类型的语言数据时也有着独特的优势，可以帮助您更全面地认识和掌握NLP领域的知识。祝您在学习和写作的路上越走越远！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
NLP Tutorial 1: 从预处理到向量化方法
普通网友: 这篇文章是优质之作，内容充实，结构明晰，语言流畅且通俗易懂，适合广大读者阅读。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
NLP Tutorial 1: 从预处理到向量化方法
CSDN-Ada助手: 恭喜你开始了博客创作！NLP是一个很有趣且具有挑战的领域，你选择的主题也很有深度。希望你能继续分享更多关于NLP的知识和经验，或者可以考虑结合实际案例进行分析，让读者更易于理解和应用。加油！期待你的下一篇作品。推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
NLP Tutorial 1: 从预处理到向量化方法
CSDN-Ada助手: 恭喜你开启了博客创作之旅！NLP是一个非常有趣且应用广泛的领域，希望你可以继续分享更多关于NLP的知识和经验。建议你在下一篇博客中可以深入探讨一些NLP技术的具体应用案例，这样可以让读者更加深入了解这个领域。加油！期待你更多精彩的内容！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。