小周带你读论文-2之“草履虫都能看懂的Transformer老活儿新整“Attention is all you need(2)

最新推荐文章于 2024-10-09 00:00:00 发布

用数据说话用数据决策

最新推荐文章于 2024-10-09 00:00:00 发布

阅读量37

点赞数 1

文章标签： transformer 深度学习人工智能

原文链接：https://blog.csdn.net/kingsoftcloud/article/details/135713037

版权

书接前文：小周带你读论文-2之"草履虫都能看懂的Transformer老活儿新整"Attention is all you need(1) (qq.com)

上文书说到为什么我们要用casual-decoder架构，把Transformer的左边给省略了，于是得到下图这样的架构

上图是GPT-1的模型结构，那么casual-decoder和原始Transformer除了没有左边的encoder还有什么区别呢？

就是除了把左边红框的部分去掉了，右边中间的部分也给干掉了，精简到从多头注意力层之后过一层Layer Normal之后直接进FNN

整个网络就被精简为：

位置编码层--->N*(masked自注意力层--->第一层Layer normalization--->FFN--->第二层Layer Normalizattion)--->线性层

不同的模型可能会有区别，但是大差不差，等于你记住了我这个顺序，就记住了Casual-decoder模式的LLM的网络架构

首先一个大前提，我们应该了解Transformer模型本身肯定是看不懂你输入进去的文字的，最终是都要表示成为向量的模式，然后通过距离比较理解出你的输入大概率要对应什么输出的可能性百分率

这部分不理解的基础方面的同学，可以阅读和参考以下文章：

深度学习从入门到不想放弃-5 (qq.com)

深度学习从入门到不想放弃-6 (qq.com)

当你准备训练模型之前，首先是要定义自己的词典，也就是vocb，vocb是可以由纯粹的单字构成（汉语，估计也是唯一一门的表意文字）,也可以由词组成（英语，拼音类文字，当然汉语也可以这么分），一般像Llama分词就用的BPE来分词，来支撑它的vocb，但是BPE中文用着就别扭，因为是基于字节的，也有自己写分词器的，按字来分，比如我哥们儿在做的项目就是自己做的汉字分词器，然后把5000多个汉字加入到Llama原本的vocb里面，也一样用

分完了词我们就要做我们的tokenizer,就是下面这些文件

比如打开tokenizer.json就可以看到编码

然后再通过tokenizer的model去把数字转换成向量

在NLP领域我们一般是不会采用one-hot编码的，都采用word2Vec的形式，尽量别那么稀疏，本来NLP的场景就很稀疏，所以我们要尽量省算力，省内存

比如Llama32000个词，要是one-hot编码的话，就是[0,0,0,1,0,0......(第3200个0)]这种的，显然不能让人接受，如下图我用一个4维的向量来编码一个词（所对应的数字），只要词典里这些词的四个维度的数字有一点不一样就行了，这样就省了好多的空间，实际场景中了，为了特征值比较好出结果还有其他原因，一般维度也并不太小，GPT-1刚出的时候我记得是768维，和一般的word2vec相同，到了GPT-3已经是12288维

当一个句子中的所有词（或者字）被进行embedding处理之后，在进入模型训练之前，就会变成这样子，像是下图样子的Tensor

Tensor的形状就是（ batchsize,seq_number,dimension_numer）

当把训练数据按照batchsize封装成这个样子，就可以送入网络里进行训练了，比如RNN就直接开始训了，但是Transformer不太行，原因是因为RNN是具有时序控制的，通过类似门电路一样的遗忘门，输入输出门，来保留原来的时序信息，但是Transfoermer是个类词袋模型，它没有这个能力，类似于fasttext，它能力就是统计词频，也没有时序关联性，比如我们要预测两句话：

"我爱你"

"你爱我"

这就是完全的两个意思，但是如果是正常做self-attention的话，其实这两句话，大概率最后输入softmax以后，值是相等的，这就属于不可用了，基于此，在做self-attention之前，我们要把embedding好的token给加点东西，来表示一个句子中不同词的顺序，在做self-attention的时候离的近的多少给点照顾，还有顺序也有前后，这样才能在训练之后的预测达到你想要的要求

那么好，首先我们就进入到今天的环节，也是Transformer的网络入口位置编码层（positional-encoding）：

其实位置编码层，它严格来说，不属于Transformer网络的一部分，因为它本身这一层，不参与attention计算，但是它也是非常重要的，因为它的结果会导致attention计算的值的不同，所以很重要

为什么要有位置编码，刚才讲完了，现在我们来讲一下这东西的实现方式，目前实现位置编码主要有3种：

绝对位置编码

相对位置编码

旋转位置编码

我这里就讲两种绝对Sinusoidal （GPT用），旋转RoPE（Llama用），这两个要能看懂也就够用了，相对基本也用不太上（听过的模型只有T5再用）

1-绝对位置编码

简单说就是把一个句子里的词（或者字)按着奇数和偶数的顺序分别拿正弦函数(偶数)和余弦函数（奇数）给求出来一系列值，然后把这个值给挂在embedding上面加一下，一起送入Attention层

什么意思呢？

我们以一个句子"I am a Robot"来看,假设dimension为4，n为用户定义的标量，Attention is all you Need的作者定义n为12000，我为了好算定义100

是不是就算出了关于词不同维的向量值，以及他们分别代表的正弦和余弦函数的值？

我们都知道三角函数的特性：

通过这种三角函数式的递进位置编码，模型能够分辨出每个token的绝对位置，也能进一步推断出token之间的相对位置

假设位置M、N两个token，其中N>M，二者相差P，则根据上述公式

对于sin变换，能够清晰地看出位置N和query的位置M之间的关系，前者相比后者的位置多P个距离，相当于多乘出来一个(cosP sinP) (罗起来的实在打不出来。。。)，cos也一样，这样就能在计算M和N之间的位置了

2-RoPE

RoPE旋转编码是苏剑林大师提出的，最早用在他自己自研的RoFormer，Llama就采用了。目前看也是为数不多的，在Transformer领域里，国人贡献的顶级技术能力和思想，下面我用几何方式来解释，还可以用复数来解释（那个我也解释不明白，大家可以自己找资料看）

刚才我们讲的相对位置编码，主要是利用三角函数相关的算法和逻辑来判断位置，RoPE不是，它的逻辑是

对于自注意力矩阵X1位置和X2位置来求attention, RoPE先将对应token的特征向量两维度一组切分，如上图，对切分后的每个二维向量旋转，得到X'1和X'2；如上图所示，旋转角的取值与三角式位置编码相同，即采样频率θ乘上token下标，旋转完将所有切分拼接，就得到了含有位置信息的特征向量

比如要求t位置和s位置上的向量X的位置相关性如上面公式所示，RoPE通过旋转矩阵不只可以分别乘在向量qt和ks上（qk做内积求attetion，这块看不明白下节课讲），表达绝对位置，也可以乘在self-attention矩阵At,s的中间，表达相对位置，所以RoPE实现了绝对位置和相对位置的统一

RoPE的实现思路或者说本质，其实就是特征向量的旋转操作，拿一个2维的向量举例（好理解）当以下条件成立

则只可能有一个θ角和它对应，然后我们把旋转矩阵给展开，就能得到qt和ks旋转后的结果，如果维度大于2，其实也是一个道理

上述式子继续推导，合并cos和sin就可以发现，qt，ks旋转后的结果，实质上，就是qt，ks乘上cos再加上qt，ks翻转维度并取反一维后再乘上sin的结果，程序里实现叫rotate_half

本节完，写了2章，1万多字，还没进到Transformer的门

，刚在门外打理完，可见我写的多细，大家别吝惜点赞，转发，收藏，一键三连啥的，谢谢

文章知识点与官方知识档案匹配，可进一步学习相关知识
Python入门技能树首页概览388468 人正在系统学习中

周博洋K
已关注

逻辑斯谛种群增长方程中的参数r-Gause的草履虫实验及其推断的讨论 (1988年)
05-21
以五种食物供量重复Gause的草履虫实验。采用活体计数草履虫，逻辑斯谛方程中的r由枚举优选法计算。结果，r值随食物供量由0....通常所用的目标函数∑(Ni-Ni)2不适合逻辑斯谛曲线，提出一种新的目标函数∑1-1 1Ni(Ni-Ni)2
60[thinsp]Hz 磁场对草履虫行为的影响
06-29
Yasuo Nakaoka,1* Kikuo Shimizu,2 Kenji Hasegawa,3 and Takayoshi Yamamoto2 1Division of Biophysical Engineering, Graduate School of Engineering Science, OsakaUniversity,Toyonaka, Osaka, Japan 2...
草履虫的类中间纤维以免疫学方法进行的初步研究 (2001年)
05-13
以抗中间纤维蛋白抗体作为...它们是 2 1,2 3,33及 68kD蛋白。在免疫印迹实验中 ,4种蛋白中的一种或几种分别与不同的中间纤维蛋白抗体有交叉反应。以上实验初步表明 ,草履虫细胞内存在高等生物中间纤维蛋白的同源蛋白。
共生小球藻的分离培养和特性及其对宿主袋形草履虫生长的影响 (1987年)
05-10
本文作者从采自哈尔滨的袋形草履虫体内分离出共生小球藻进行人工培养,观察其在虫体内外的形态生长特性。同时作者将袋形草履虫共生体置于不同条件下培养,了解到虫体与小球藻之间的相互关系,以及这种虫藻共生关系在...
深度学习常用代码总结(k-means, NMS)
BIT_Legend的博客
1080
因为图像中的目标是多种多样的形状、大小和长宽比，目标检测算法中为了更好的保障目标的召回率，通常会使用 SelectiveSearch、RPN (例如：Faster-RCNN)、Anchor (例如：YOLO) 等方式生成长宽不同、数量较多的候选边界框 (BBOX)。step5：将IOU与NMS预设阈值Thre进行比较，若某bbox与bbox1的IOU大于Thre，即视为bbox1的“邻域”，则在该类别边界框列表中移除该bbox，即去除冗余边界框；step8：输出列表即为想要输出的检测框，NMS流程结束。
基于深度学习的车牌识别（YOLOv5和CNN）
AAI666666的博客
309
基于深度学习的车牌识别（YOLOv5和CNN）
深度学习基础知识整理
Do1phln的博客
1030
稀疏自编码器的目标是学习到一组稀疏的特征，这些特征可以更好地表示输入数据。由于自动编码器可以以无监督的方式进行训练，因此自动编码器，特别是堆叠去噪自动编码器（SDA），可以通过初始化深度神经网络（DNN）的权重来训练模型，从而提供有效的预训练解决方案。在SDA的逐层预训练之后，可以将自动编码器的参数设置为DNN的所有隐藏层的初始化。自编码器有多种变体，包括稀疏自编码器，去噪自编码器，变分自编码器等。去噪自编码器的目标是学习到一组稀疏的特征，这些特征可以更好地表示输入数据。其中p为预定义的平均激活目标，
Softmax回归（多类分类模型）
m0_53881899的博客
671
Softmax回归（多类分类模型）
Python中的卷积神经网络（CNN）入门
2301_81940605的博客
104
卷积神经网络（Convolutional Neural Networks, CNN）是一类特别适用于处理图像数据的深度学习模型。
卷积神经网络教程 (CNN) – 使用 TensorFlow 在 Python 中开发图像分类器
AAI666666的博客
383
卷积神经网络在图像和视频识别、推荐系统和自然语言处理方面有着广泛的应用。
多输入多输出 | Matlab实现SSA-CNN麻雀算法优化卷积神经网络多输入多输出预测
关注并私信文章链接，获取对应文章源码和数据，机器学习之心的博客。
429
多输入多输出 | Matlab实现SSA-CNN麻雀算法优化卷积神经网络多输入多输出预测
深度学习入门——卷积神经网络CNN基本原理+实战
2301_81940605的博客
442
卷积神经网络（Convolutional Neural Network,CNN）是深度学习技术中最基础的网络结构，模拟人脑工作，具备强大的特征学习能力。
【人工智能与深度学习】当输入层维度为1024，输出层维度为100时，为什么全连接层参数量为1024*100+100
weixin_44210987的博客
593
在神经网络中，全连接层（也称为稠密层或线性层）的参数量计算通常包括权重（weights）和偏置（biases）。：每个输入特征都与每个输出特征连接。因此，权重的总数等于输入特征数乘以输出特征数。在这个例子中，就是 (1024 \times 100 = 102400)。这些参数在训练过程中通过反向传播算法进行学习，以便网络能够从输入特征中有效地学习到预测输出的映射关系。因此，偏置的总数等于输出特征数。把这两部分相加，得到全连接层的总参数量：(102400 + 100 = 102500)。
李沐深度学习-激活函数/多层感知机文档
qq_43401942的博客
273
【代码】李沐深度学习-激活函数文档。
YOLOv5改进 | 主干篇 | 华为GhostnetV1一种移动端的专用特征提取网络
Snu77的博客
243
本文给大家带来的改进机制是华为移动端模型Ghostnetv1，华为GhostnetV1一种移动端的专用特征提取网络，旨在在计算资源有限的嵌入式设备上实现高性能的图像分类。GhostNet的关键思想在于通过引入Ghost模块，以较低的计算成本增加了特征图的数量，从而提高了模型的性能。这种方法在计算资源有限的情况下，尤其适用于图像分类任务，并在一些基准测试中表现出了很好的性能。本文将通过首先介绍其主要原理，然后手把手教大家如何使用该网络结构改进我们的特征提取网络。
【AI】深度学习在编码中的应用（3）
最新发布
giszz的博客
364
接上，本文重点梳理基础架构设计相关的知识。
李沐深度学习-d2lzh_pytorch模块实现
qq_43401942的博客
727
【代码】李沐深度学习项目。
深度学习中的在线学习、批次学习或小批次学习分别是什么？
weixin_40551464的博客
687
在线学习适用于实时数据流和快速适应新数据的场景，批次学习适用于数据集稳定的情况，而小批次学习在深度学习中提供了一种平衡计算效率和内存使用的有效方式。-批次学习的优势在于稳定性和效率，但它不能即时反映新数据的信息，并且处理大规模数据集时可能对内存和计算资源的要求较高。-小批次学习是介于在线学习和批次学习之间的一种方法，它将数据集分成多个小批次，并用每个小批次来逐步更新模型。特点：平衡了在线学习和批次学习的优点，提高了计算效率，同时保持适当的模型更新频率。，可以将学习方法分为在线学习、批次学习和小批次学习。
深度学习预备知识-数据存储、数据预处理
weixin_50601779的博客
606
深度学习预备知识--数据如何存储？采用张量的形式存储数据如何预处理？对NaN的值是插值法和删除发
mab-maab-5.0
04-29
mab-maab-5.0是一种基因工程技术，其全称为“monoclonal antibody-membrane active antimicrobial peptides-5.0”。它是将单克隆抗体与活性肽结合，用
————————————————
版权声明：本文为CSDN博主「周博洋K」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/kingsoftcloud/article/details/135713037