使用Pytorch复现Transformer

Serein_sjx

已于 2024-08-10 23:26:10 修改

阅读量332

点赞数 7

文章标签： python transformer 深度学习人工智能机器翻译

于 2024-08-04 12:14:19 首次发布

本文链接：https://blog.csdn.net/weixin_54561434/article/details/140904496

版权

Transformer(Pytorch) - Machine Translation

项目链接点击这里
如果有帮助可以star一下，谢谢！！
使用Pytorch复现Transformer，并完成机器翻译任务(法语 -> 英文、英文 -> 中文)

Install

git clone https://github.com/JiaxingSong718/Transformer.git  # clone
cd Transformer

Environment

conda create -n Transformer python=3.7
conda activate Transformer
pip install -r requirements.txt  # install

Dataset

法语 -> 英文数据集：

数据集train 和 valid

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Serein_sjx

关注关注

7
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

第TR3周：Pytorch复现Transformer

lihuhelihu的博客

08-02

2749

Transformer可以看作是seq2seq模型的一种，因此，先从seq2seq的角度对Transformer进行宏观结构的学习。下图1先便是Transformer整体结构图，与seq2seq模型类似，Transformer模型结构中的左半部分为编码器，右半部分为解码器，下面我们来一步步拆解Transformer。在某种程度上，可以将Transformer看作是Seq2Seq的一种演变，Transformer可以执行Seq2Seq任务，并且相对于传统的Seq2Seq模型具有更好的性能和可扩展性。

transformer复现

一介北漂

06-27

780

""" 原始 embedding，添加 position-embedding， multihead-attention： embedding->ff(q,k,v)-->split+concat-->mask--> attention-->scaled-dot-product-->softmax(qk)--> softmax(qk)*value-->residual,input+output-->layer-normalization fea...

参与评论您还未登录，请先登录后发表或查看评论

Transformer源码复现（学习笔记）

最新发布

m0_74041686的博客

03-17

1030

本文详细讲解了作者学习Transformer源码的过程与思考

transformer核心复现

weixin_42975688的博客

10-08

347

transformer核心复现 import torch import torch.nn.functional as F import numpy as np import math, copy, time from torch.autograd import Variable import matplotlib.pyplot as plt import seaborn seaborn.set_context(context="talk") #------------------------------主体

Raki的paper复现：Transformer

Raki_J的博客

01-13

824

咕咕咕了很久，它终于要来辣！本blog将会按照paper中的顺序，完整复现transformer模型，但是不会有训练的部分，想看训练部分的请参考哈佛的blog原文（： reference：哈佛大学NLP组的transformer复现 Transformer源码详解（Pytorch版本）老规矩，先上整体架构图： Encoder and Decoder Stacks 此处的Encoder是堆叠之后的结果，每个layer是单个encoder，首先将其复制 NNN = 6次 class Encoder

TR3：Pytorch复现Transformer

u012249506的博客

11-14

1320

Transformer 网络架构架构由 Ashish Vaswani 等人在 Attention Is All You Need一文中提出，并用于机器翻译任务，和以往网络架构有所区别的是，该网络架构中，编码器和解码器没有采用 RNN 或 CNN 等网络架构，而是采用完全依赖于注意力机制的架构。网络架构如下所示： Transformer改进了RNN被人诟病的训练慢的特点，利用self-attention可以实现快速并行。注意力机制是神经网络中一个迷人的概念，特别是在涉及到像 NLP 这样的任务时。它就像给

第26周：Pytorch复现Transformer

weixin_46620278的博客

09-28

1075

🍨 本文为 [🔗365天深度学习训练营] 中的学习记录博客[K同学啊]从整体上把握Transformer模型，明白它是个什么东西，可以干嘛读懂Transformer的复现代码一、基本概念对Transformer和自注意力机制的基本概念进行了解，并结合代码进行实际学习操作[🔗365天深度学习训练营][K同学啊]

基于Pytorch复现Point-Transformer，用于ShapeNet数据集点云分割

04-25

基于Point Transformers复现点云分割任务 ## 准备数据：使用连接下载 **ShapeNet** 数据集 ## 训练： ```bash python train.py ``` ## 实验结果： | Models | Accuracy | cat.mIOU | ins.mIOU | | -------...

手搓Transformer代码（简易版）复现

qq_50374797的博客

06-06

1968

Transformer 架构中的一个关键组件，可以用于编码器（Encoder）的自注意力（Self-Attention）、解码器（Decoder）的掩蔽自注意力（Masked Self-Attention）以及编码器-解码器（Encoder-Decoder）的注意力机制。，其中包含了多个句子，每个句子都是一个包含三个字符串的列表：中文句子（编码器输入）、带有开始符号的英文句子（解码器输入）、以及英文句子（解码器输出）。中的每个句子，并将每个句子的单词转换成对应的数字。，其中包含了三对中文到英语的句子。

Transformer模型代码复现及逻辑说明

weixin_62486274的博客

11-01

2205

1、为什么要进行词嵌入编码： Transformer进行词嵌入编码的原因是将离散的词汇转换为连续的向量表示，使模型能够处理和学习词汇之间的关系。词嵌入将词汇转换为向量，使模型能够捕捉语义关系、降低维度和提高泛化能力，从而更有效地理解和处理自然语言。2、词嵌入编码实现的逻辑：使用nn.Embedding方法，其实现原理：前向传播，实现该方法时，其内部使用了一张查找表，将输入的词索引映射到对应的向量。 : 创建一个嵌入层，用于将词汇表中的每个词映射到一个固定维度的向量。 : : 词汇表的大小，表示模型可以

一文读懂Transformer+源码复现

程序猿废柴的博客

04-28

1万+

本文主要介绍Transformer的原理以及对Transformer的源码进行复现。关于Transformer的原理在上篇《一文读懂BERT(原理篇)》一文中有较详细的介绍，读者可以通过传送门过去进一步阅读，本片着重对代码部分进行研究。本文内容参考了The Annotated Transformer（读者可以从这里下载代码）以及《Convolutional Sequence to Sequence...

复现 transformer

m0_57122465的博客

05-31

1595

首先是一些掩码操作这行代码主要是在实现序列屏蔽的过程中构造一个形状为(batch_size, seq_len)大小的布尔型张量mask 其中，元素(i,j)的值为True表示对应输入序列中的第i个样本在位置j上存在有效元素，反之，该位置不存在有效元素。具体而言，valid_len 是一个长度为batch_size的一维张量，表示每个序列中有效元素的数量（seq_len可能大于有效长度）。

复现Transformer模型

weixin_51278988的博客

02-09

630

假如进来一句话，首先这里面有15个token，第一步经过embedding层，每一个词都是128维度的向量**[15,128]，**接着为这个embedding提供position encoding。该函数的第一个参数是输入的矩阵，第二个参数 diagonal 是一个可选参数，用于控制对角线的偏移量。在transformer中，embedding主要是为每个词提供一个向量，然后position embedding主要是提供位置信息，这里着重讲解一下一个句子进来，它是如何进行嵌入和位置相加的。

【深度学习】(2) Transformer 网络解析，代码复现，附Pytorch完整代码

博观而约取，厚积而薄发

06-27

9199

今天和各位分享一下如何使用 Pytorch 构建 Transformer 模型。本文的重点在代码复现，部分知识点介绍的不多，我会在之后的四篇博文中详细介绍 Encoder，Decoder，(Mask)MutiHeadAttention，以及实战案例。之前我也介绍过 Vision Tranformer，该模型的 Pytorch 和 TensorFlow2 的复现和实战案例可以看我的这两篇博文：https://blog.csdn.net/dgvv4/article/details/124792386ht...

Github复现之TransUNet（Transformer用于语义分割）

热门推荐

qq_20373723的博客

04-09

4万+

Transformer最近应该算是一个发文章的新扩展点了，下面给出了三个网络的结构分别是TransFuse，TransUNet，SETR。很明显，结构里那个Transformer层都是类似的，感觉只要用一下那个层，包装一下，发文章会比纯做卷积网络创新相对轻松些，目前我只用了TransUNet，也没有怎么训练，还没法给出实际效果的好坏评价，后续会多做实验，评估这些网路用于实际时究竟怎样，接下来就先完成一下TransUNet的复现。 TransFuse 论文链接：https://arxiv.org/abs/21

第TR1---TR3周： Pytorch复现Transformer

m0_62017984的博客

07-05

1159

主要序列转导模型基于复杂的循环或卷积神经网络，包括编码器和解码器。mechanism.性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构——Transformer，它完全基于注意力机制，完全不需要递归和卷积。对两个机器翻译任务的实验表明，这些模型具有卓越的质量，同时具有更高的并行性，并且需要的训练时间显着减少。我们的模型在 WMT 2014 英德翻译任务中获得了 28.4 BLEU，比现有的最佳结果（包括集成）提高了 2 BLEU 以上。

Transformer(gpu)代码复现

weixin_45762884的博客

04-15

1085

逐行注释，逐行解析。本地配备gpu环境可直接运行。相比cpu版本没有任何删减，增加的几行代码已做标识。 code from https://github.com/graykode/nlp-tutorial/tree/master/5-1.Transformer

深度学习经典论文与开源项目实战

03-25

购买课程后，添加小助手微信（微信号：csdnxy68）回复【唐宇迪】进入学习群，获取唐宇迪老师答疑深度学习经典论文解读与项目实战课程旨在帮助同学们掌握当下深度学习领域最核心论文思想及其源码实现。所选论文均是计算机视觉与自然语言处理领域主流通用算法，主要内容包括四大核心部分：1.论文核心思想解读；2.论文细节知识点精讲；3.论文代码复现与应用；4.大型开源项目源码解读；整体风格通俗易懂，所有论文均结合实战项目展开，理论与实战应用**结合，适合进阶提升与转行就业的同学们。课程特色：１、深度学习领域经典和通用算法精讲，提升与面试必备！２、通俗易懂，核心知识点全面覆盖，算法与代码结合！３、大型开源项目实战，Google，Facebook等核心算法实战！４、提供全部数据，代码，PPT，持续更新，永久有效！讲师卡更优惠，可加入全部课程（包括后续更细那内容）

第TR3周：pytorch复现transformer

03-11

<think>好的，我现在需要帮助用户了解如何使用PyTorch实现Transformer模型。首先，我应该回顾一下PyTorch中Transformer的相关组件。记得PyTorch提供了nn.Transformer模块，包括编码器、解码器、多头注意力机制等。用户可能需要一个完整的示例代码，所以得一步步来。首先，数据准备部分可能需要用到Dataset和DataLoader。然后，模型构建方面，用户可能需要继承nn.Module，定义Embedding层、位置编码、Transformer层等。这里要注意的是，PyTorch的Transformer模型需要指定d_model、nhead、num_encoder_layers等参数。接下来，前向传播的逻辑需要正确处理src和tgt的输入，以及生成mask和padding mask。这里可能会用到generate_square_subsequent_mask函数来创建因果掩码，防止解码器看到未来信息。然后，训练循环部分需要定义损失函数和优化器，比如交叉熵损失和Adam优化器。还需要处理序列的批次数据，可能需要对输入进行padding或者截断，确保序列长度一致。用户可能还关心如何应用Transformer到具体任务，比如机器翻译或文本生成。这时候需要调整模型的输入输出结构，比如在生成任务中使用自回归的方式逐步生成输出。另外，要注意引用提供的资料。引用[1]提到官方实例中的data.py、model.py等文件结构，可以建议用户参考官方代码组织方式。引用[2]和[3]提供了模型组件的实现细节，比如Embedding层、位置编码和初始化方法，这些都需要在代码中体现。可能遇到的问题包括维度不匹配、mask设置错误，或者训练不稳定。这时候需要检查各层的输入输出维度，确保mask正确应用，并考虑使用学习率预热或梯度裁剪等优化策略。最后，生成相关问题时要围绕Transformer实现的关键点，比如参数配置、数据处理、训练技巧和应用场景，帮助用户深入理解。</think>使用PyTorch实现Transformer模型需要理解其核心组件和数据处理流程。以下是分步实现方法及示例代码： ### 一、模型结构搭建 PyTorch提供原生Transformer模块（`torch.nn.Transformer`），主要包含： 1. **Embedding层**：将输入序列转换为稠密向量 2. **位置编码**：注入序列位置信息 3. **多头注意力机制**：计算自注意力和交叉注意力 4. **前馈网络**：进行非线性变换 ```python import torch import torch.nn as nn class TransformerModel(nn.Module): def __init__(self, vocab_size, d_model=512, nhead=8, num_encoder_layers=6, num_decoder_layers=6): super().__init__() self.embedding = nn.Embedding(vocab_size, d_model) self.pos_encoder = PositionalEncoding(d_model) self.transformer = nn.Transformer( d_model=d_model, nhead=nhead, num_encoder_layers=num_encoder_layers, num_decoder_layers=num_decoder_layers ) self.fc_out = nn.Linear(d_model, vocab_size) def forward(self, src, tgt, src_mask=None, tgt_mask=None): src = self.pos_encoder(self.embedding(src)) tgt = self.pos_encoder(self.embedding(tgt)) output = self.transformer(src, tgt, src_mask=src_mask, tgt_mask=tgt_mask) return self.fc_out(output) ``` ### 二、关键组件实现 #### 位置编码（Positional Encoding） $$ PE_{(pos,2i)} = \sin(pos/10000^{2i/d_{model}}) $$ $$ PE_{(pos,2i+1)} = \cos(pos/10000^{2i/d_{model}}) $$ ```python class PositionalEncoding(nn.Module): def __init__(self, d_model, max_len=5000): super().__init__() pe = torch.zeros(max_len, d_model) position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1) div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model)) pe[:, 0::2] = torch.sin(position * div_term) pe[:, 1::2] = torch.cos(position * div_term) self.register_buffer('pe', pe.unsqueeze(0)) def forward(self, x): return x + self.pe[:, :x.size(1)] ``` ### 三、训练流程示例 ```python # 初始化模型 model = TransformerModel(vocab_size=10000) criterion = nn.CrossEntropyLoss() optimizer = torch.optim.Adam(model.parameters(), lr=0.0001) # 创建mask def generate_mask(src, tgt): src_mask = (src != 0).unsqueeze(1).unsqueeze(2) tgt_mask = nn.Transformer.generate_square_subsequent_mask(tgt.size(0)) return src_mask, tgt_mask # 训练循环 for epoch in range(10): for src, tgt in dataloader: src_mask, tgt_mask = generate_mask(src, tgt) output = model(src, tgt[:, :-1], src_mask=src_mask, tgt_mask=tgt_mask) loss = criterion(output.view(-1, output.size(-1)), tgt[:, 1:].reshape(-1)) optimizer.zero_grad() loss.backward() optimizer.step() ``` ### 四、核心注意事项 1. **维度对齐**：输入张量应为$(seq\_len, batch\_size, d\_model)$格式[^3] 2. **掩码应用**：需正确处理padding mask和sequence mask 3. **参数初始化**：推荐使用Xavier均匀初始化 ```python nn.init.xavier_uniform_(self.embedding.weight) ```