【Transformer模型训练参数】

进击的程序汪

已于 2024-04-07 17:19:55 修改

阅读量468

点赞数 1

文章标签： transformer 深度学习人工智能

于 2024-04-07 17:12:58 首次发布

本文链接：https://blog.csdn.net/weixin_46356409/article/details/137470543

版权

训练Transformer模型通常涉及提供大量的输入数据和对应的标准答案，这个过程称为监督学习。在训练过程中，模型会尝试学习如何从输入数据映射到正确的输出，以此来最小化预测结果和实际答案之间的差异。
Transformer模型由编码器（Encoder）和解码器（Decoder）两部分组成，每部分都包含多个相同的层，每层都有多个参数。在训练过程中，以下参数会被调整：


编码器参数：编码器由多个编码器层组成，每个层包含自注意力机制（self-attention）和前馈神经网络（feed-forward neural network）。自注意力机制中的参数包括查询（query）、键（key）、值（value）的权重矩阵和偏置项，前馈网络中的参数包括两个线性变换的权重矩阵和偏置项。


解码器参数：解码器的结构与编码器类似，但每个解码器层还包含一个额外的注意力机制，用于关注编码器的输出。因此，解码器层不仅包含自注意力和前馈网络的参数，还包含用于编码器-解码器注意力的参数。


共享参数：在某些Transformer模型的变体中，输入嵌入（input embeddings）、输出嵌入（output embeddings）和最终线性变换的权重可能会被共享。


层归一化参数：每个子层（自注意力和前馈网络）的输出通常会通过层归一化（Layer Normalization），这也涉及到一些可学习的参数。


位置编码参数：虽然位置编码通常是固定的，但在某些模型中，位置编码也可以是可学习的参数。


通过反向传播和优化算法（如Adam），这些参数会在训练过程中不断调整，以便模型能够更好地理解输入数据和生成正确的输出。训练完成后，这些参数就固定下来，模型可以用来进行推理（inference），即根据输入数据预测输出。

在反向传播和优化算法的过程中，几乎所有的模型参数都是可优化的，也就是说，它们会在训练过程中通过梯度下降算法进行调整。具体来说，以下是一些会被优化的参数：


权重矩阵（Weights）：这些是模型中最主要的参数，它们存在于自注意力机制、前馈神经网络、以及编码器和解码器之间的注意力机制中。权重矩阵决定了输入数据如何被转换和组合。


偏置项（Biases）：与权重矩阵一起，偏置项在神经网络中调整激活函数的输出。


层归一化参数（Layer Normalization Parameters）：这些参数包括每个层归一化组件中的缩放（scale）和平移（shift）参数。


位置编码（Positional Encodings）：在某些Transformer模型中，位置编码可以是可训练的参数，允许模型学习位置信息。


以下是一些通常固定不变的参数或设置：


模型架构（Model Architecture）：模型的层数、每层的头数（在多头注意力中）、以及每个头的维度等架构决策在训练前就已经确定，并在训练过程中保持不变。


超参数（Hyperparameters）：学习率、批次大小（batch size）、训练轮数（epochs）等超参数不是通过训练学习得到的，而是在训练前设定好的。


固定的位置编码（Fixed Positional Encodings）：在原始的Transformer模型中，位置编码是根据预定义的公式生成的，不是通过训练学习得到的。


词嵌入（Word Embeddings）：虽然词嵌入在训练过程中会被优化，但在某些情况下，如果使用了预训练的词嵌入并选择冻结它们，那么这些词嵌入参数在训练过程中将保持不变。


在训练过程中，通过计算损失函数（如交叉熵损失）来衡量模型的预测和实际答案之间的差异，然后使用反向传播算法计算损失函数关于每个可训练参数的梯度。优化算法（如Adam、SGD等）利用这些梯度来更新参数，以减少损失。这个过程在多个训练周期（epochs）中重复进行，直到模型的性能达到某个满意的水平或者不再显著提升为止。

实际上，Transformer模型中的编码器和解码器的参数都会在训练过程中被优化。

## 可训练参数
编码器参数
编码器中的每一层都包含以下可训练参数：

自注意力机制参数：

权重矩阵W^Q, W^K, W^V：用于生成查询（Q）、键（K）、值（V）的线性变换。
输出权重矩阵W^O：用于自注意力输出的线性变换。
相关的偏置项。
前馈神经网络参数：

第一层线性变换的权重和偏置。
第二层线性变换的权重和偏置。
层归一化参数：

缩放（γ）和平移（β）参数。
解码器参数
解码器中的每一层包含与编码器类似的参数，以及额外的用于编码器-解码器注意力机制的参数：

自注意力机制参数（与编码器相同）。

编码器-解码器注意力机制参数：

权重矩阵W^Q, W^K, W^V和偏置项，用于关注编码器输出。
前馈神经网络参数（与编码器相同）。

层归一化参数（与编码器相同）。

其他共享参数
嵌入层参数：

词嵌入权重。
位置嵌入权重（如果位置嵌入是可训练的）。
输出层参数：

输出线性层的权重和偏置。
如果使用了共享嵌入，输出嵌入与输入嵌入共享权重。

## 固定参数
模型架构相关的参数：

层数（编码器和解码器的层数）。
多头注意力中的头数。
每个头的大小或维度。
前馈网络中的隐藏层大小。
超参数：

学习率（可能会动态调整）。
批次大小（batch size）。
训练轮数（epochs）。
固定的位置编码（如果使用）：

根据预定义的公式生成的位置编码。
其他固定设置：

激活函数（如ReLU或GELU）。
损失函数（如交叉熵损失）。
正则化方法（如dropout率）。
在训练过程中，编码器和解码器的参数都会通过反向传播算法进行优化。优化的目标是减少模型输出和真实答案之间的差异，这通常通过一个损失函数来衡量。优化算法（如Adam）会根据损失函数相对于每个参数的梯度来更新这些参数。

在这里插入图片描述