Transformer模型：Postion Embedding实现（Transformer 模型中位置编码（Position Embedding）的详细实现与实践）

置顶 Dreams°123

已于 2024-09-11 14:26:42 修改

阅读量344

点赞数 3

分类专栏： AIGC 文章标签： embedding transformer 测试工具深度学习

于 2024-09-05 10:15:00 首次发布

本文链接：https://blog.csdn.net/weixin_44892179/article/details/141899816

版权

AIGC 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Transformer 模型中位置编码（Position Embedding）的详细实现与实践

1、安装依赖
2、位置编码的实现
3、Transformer 模型的实现
4、数据准备
5、模型训练和评估

下面是一个详细的代码示例，展示了如何在 Transformer 模型中实现和应用位置编码。这个示例将使用 PyTorch，包含位置编码的实现、如何将位置编码集成到 Transformer 模型中，以及训练模型的完整代码。

1、安装依赖

确保已安装 PyTorch。如果没有，请使用以下命令进行安装：

pip install torch torchvision torchaudio

2、位置编码的实现

实现一个 PositionalEncoding 类，它计算和返回位置编码：

import torch
import torch.nn as nn
import math

class PositionalEncoding(nn.Module):
    def __init__(self, d_model, max_len=5000):
        """
        初始化位置编码层
        :param d_model: 嵌入维度
        :param max_len: 最大序列长度，用于计算位置编码
        """
        super(PositionalEncoding, self).__init__()
        # 创建一个形状为 (max_len, d_model) 的全零矩阵
        self.encoding = torch.zeros(max_len, d_model)
        self.encoding.require_grad = False  # 不需要计算梯度
        
        # 计算每个位置的编码
        positions = torch.arange(0, max_len).unsqueeze(1).float()  # 位置编号
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * -(math.log(10000.0) / d_model))  # 除数
        
        # 计算位置编码
        self.encoding[:, 0::2] = torch.sin(positions * div_term)
        self.encoding[:, 1::2] = torch.cos(positions * div_term)
        self.encoding = self.encoding.unsqueeze(0)  # 增加批次维度

    def forward(self, x):
        """
        前向传播
        :param x: 输入张量，形状为 (batch_size, seq_len, d_model)
        :return: 添加了位置编码的输入张量
        """
        return x + self.encoding[:, :x.size(1)].detach()  # 将位置编码加到输入上

3、Transformer 模型的实现

创建一个包含位置编码的 Transformer 模型：

class TransformerModel(nn.Module):
    def __init__(self, input_dim, model_dim, nhead, num_layers, output_dim):
        """
        初始化 Transformer 模型
        :param input_dim: 词汇表大小
        :param model_dim: 嵌入维度
        :param nhead: 注意力头数
        :param num_layers: 编码器和解码器的层数
        :param output_dim: 输出维度（分类数）
        """
        super(TransformerModel, self).__init__()
        self.embedding = nn.Embedding(input_dim, model_dim)  # 嵌入层
        self.positional_encoding = PositionalEncoding(model_dim)  # 位置编码层
        self.transformer = nn.Transformer(d_model=model_dim, nhead=nhead, num_encoder_layers=num_layers, num_decoder_layers=num_layers)  # Transformer 模型
        self.fc = nn.Linear(model_dim, output_dim)  # 线性层用于分类

    def forward(self, src, tgt):
        """
        前向传播
        :param src: 输入序列，形状为 (seq_len, batch_size)
        :param tgt: 目标序列，形状为 (seq_len, batch_size)
        :return: 模型的输出，形状为 (batch_size, output_dim)
        """
        src = self.embedding(src)  # 嵌入层
        tgt = self.embedding(tgt)  # 嵌入层
        src = self.positional_encoding(src)  # 添加位置编码
        tgt = self.positional_encoding(tgt)  # 添加位置编码
        output = self.transformer(src, tgt)  # Transformer 编码和解码
        output = self.fc(output[-1, :, :])  # 使用最后一个时间步的输出
        return output

4、数据准备

准备示例数据进行训练和测试：

from torch.utils.data import DataLoader, TensorDataset

# 假设你有训练数据和标签
input_dim = 1000  # 词汇表大小
model_dim = 512  # 嵌入维度
nhead = 8  # 注意力头数
num_layers = 6  # Transformer 层数
output_dim = 2  # 分类数

# 示例数据：生成随机整数作为输入数据和标签
data = torch.randint(0, input_dim, (100, 10))  # 100 个样本，序列长度为 10
targets = torch.randint(0, output_dim, (100,))  # 100 个标签

# 创建数据集和数据加载器
dataset = TensorDataset(data, data, targets)  # 输入和目标序列相同，通常在实际应用中会有所不同
data_loader = DataLoader(dataset, batch_size=32, shuffle=True)  # 数据加载器，批次大小为 32

5、模型训练和评估

训练 Transformer 模型并进行评估：

import torch.optim as optim

def train(model, data_loader, criterion, optimizer, device):
    """
    训练模型
    :param model: 要训练的模型
    :param data_loader: 数据加载器
    :param criterion: 损失函数
    :param optimizer: 优化器
    :param device: 计算设备（CPU 或 GPU）
    """
    model.train()  # 设置模型为训练模式
    for src, tgt, labels in data_loader:
        src, tgt, labels = src.to(device), tgt.to(device), labels.to(device)  # 将数据移到指定设备
        optimizer.zero_grad()  # 清零梯度
        outputs = model(src, tgt)  # 前向传播
        loss = criterion(outputs, labels)  # 计算损失
        loss.backward()  # 反向传播
        optimizer.step()  # 更新权重

def evaluate(model, data_loader, criterion, device):
    """
    评估模型
    :param model: 要评估的模型
    :param data_loader: 数据加载器
    :param criterion: 损失函数
    :param device: 计算设备（CPU 或 GPU）
    :return: 平均损失
    """
    model.eval()  # 设置模型为评估模式
    total_loss = 0
    with torch.no_grad():  # 禁用梯度计算
        for src, tgt, labels in data_loader:
            src, tgt, labels = src.to(device), tgt.to(device), labels.to(device)  # 将数据移到指定设备
            outputs = model(src, tgt)  # 前向传播
            loss = criterion(outputs, labels)  # 计算损失
            total_loss += loss.item()  # 累加损失
    return total_loss / len(data_loader)  # 返回平均损失

# 设置设备（使用 GPU 如果可用）
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# 创建模型实例
model = TransformerModel(input_dim, model_dim, nhead, num_layers, output_dim).to(device)

# 设置损失函数和优化器
criterion = nn.CrossEntropyLoss()  # 交叉熵损失函数
optimizer = optim.Adam(model.parameters(), lr=0.001)  # Adam 优化器

# 训练模型
train(model, data_loader, criterion, optimizer, device)

# 评估模型
test_data = torch.randint(0, input_dim, (20, 10))  # 示例测试数据
test_targets = torch.randint(0, output_dim, (20,))  # 示例测试标签
test_dataset = TensorDataset(test_data, test_data, test_targets)
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)

test_loss = evaluate(model, test_loader, criterion, device)
print(f'Test Loss: {test_loss}')