Datawhale 2024年AI夏令营第二期NLP方向Task03实验笔记-CSDN博客

本文链接：https://blog.csdn.net/weixin_62528564/article/details/140579953

Datawhale 2024年AI夏令营第二期NLP方向Task03实验笔记

实验说明

本次实验是Datawhale 2024年AI夏令营第二期NLP方向的第三个任务，主要内容是深入理解和应用Transformer模型。Transformer是近年来自然语言处理（NLP）领域的一个重要突破，它在机器翻译、文本生成等任务中表现出色。本实验旨在通过对Transformer模型的学习和实践，帮助学员掌握其基本原理和应用技巧。

学习过程

Transformer模型概述

Transformer模型由Vaswani等人在2017年提出，作为一种新的序列到序列的模型架构，它摒弃了传统的RNN和CNN结构，完全依赖于注意力机制（Attention Mechanism）。Transformer的主要组件包括：

多头自注意力机制（Multi-Head Self-Attention）：通过多头机制，模型能够从不同的子空间中提取特征，提高模型的表达能力。
位置编码（Positional Encoding）：由于Transformer不包含循环结构，位置编码用于在输入序列中注入位置信息，使模型能够识别输入序列中的相对位置关系。
前馈神经网络（Feed-Forward Neural Network）：在每个编码器和解码器层中，前馈神经网络用于进一步处理自注意力机制输出的特征。

代码解析

接下来，我们将对提供的代码进行解析。代码实现了一个基础的Transformer模型，并通过任务数据进行训练和测试。

# 导入必要的库
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, Dataset
import numpy as np

# 定义位置编码类
class PositionalEncoding(nn.Module):
    def __init__(self, d_model, max_len=5000):
        super(PositionalEncoding, self).__init__()
        pe = torch.zeros(max_len, d_model)
        position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-np.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        pe = pe.unsqueeze(0).transpose(0, 1)
        self.register_buffer('pe', pe)

    def forward(self, x):
        return x + self.pe[:x.size(0), :]

# 定义Transformer模型
class TransformerModel(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim, nheads, num_layers):
        super(TransformerModel, self).__init__()
        self.embedding = nn.Embedding(input_dim, hidden_dim)
        self.pos_encoder = PositionalEncoding(hidden_dim)
        encoder_layers = nn.TransformerEncoderLayer(hidden_dim, nheads, hidden_dim*4)
        self.transformer_encoder = nn.TransformerEncoder(encoder_layers, num_layers)
        self.decoder = nn.Linear(hidden_dim, output_dim)
        self.init_weights()

    def init_weights(self):
        initrange = 0.1
        self.embedding.weight.data.uniform_(-initrange, initrange)
        self.decoder.bias.data.zero_()
        self.decoder.weight.data.uniform_(-initrange, initrange)

    def forward(self, src):
        src = self.embedding(src) * np.sqrt(self.embedding.embedding_dim)
        src = self.pos_encoder(src)
        output = self.transformer_encoder(src)
        output = self.decoder(output)
        return output

# 数据集定义和训练过程略