复现Transformer模型

土豆打工仔

已于 2024-02-09 11:10:54 修改

阅读量543

点赞数 6

文章标签： transformer 深度学习人工智能

于 2024-02-09 11:10:40 首次发布

本文链接：https://blog.csdn.net/weixin_51278988/article/details/136085582

版权

Embedding + Positional Embedding

在transformer中，embedding主要是为每个词提供一个向量，然后position embedding主要是提供位置信息，这里着重讲解一下一个句子进来，它是如何进行嵌入和位置相加的。

假设vocab_size = 10000,embed_dim = 128,max_seq_length = 5000

首先先初始化一层embedding层(vocab_size，embed_dim), 然后我们开始准备position encoding。首先，我们初始化一个index，这个index是从0到max_seq_length，最后升维度—> [5000,1]。接着按照transformer论文里面的公式进行一个计算。position_emb_fill这个维度就是 [5000,64],接着初始化一个[max_seq_length,embed_dim]大小的矩阵，准备把position_emb_fill填充进去。偶数位置用 sin 奇数用cos

examples: 假如进来一句话，首先这里面有15个token，第一步经过embedding层，每一个词都是128维度的向量**[15,128]，**接着为这个embedding提供position encoding。那么position encoding的大小是[5000,128]在这个例子里面，我们只需要为15个词提供，所以只需要取到15前面。假如是21这个token，被嵌入成了128维的向量，position encoding为这个向量提供了填充，奇数位置是xx偶数位置是xxx，每个词都有。

tensor([ 2, 21, 85, 257, 31, 87, 22, 94, 7, 16, 112, 7910, 3209, 4, 3])

position_emb_fill = position_idx * torch.exp(-torch.arange(0,embedding_size,2)*math.log(10000)/embedding_size)

Encoder给KV给Decoder的Q

上三角和pad的掩码代码: torch.triu() 是 PyTorch 中的一个函数，用于生成一个上三角矩阵（或者说是上三角部分被填充为1的矩阵）。该函数的第一个参数是输入的矩阵，第二个参数 diagonal 是一个可选参数，用于控制对角线的偏移量。

# 生成掩码
first_attn_mask = (dec_x_batch==PAD_IDX).unsqueeze(1).expand(dec_x_batch.size()[0],dec_x_batch.size()[1],dec_x_batch.size()[1])
first_attn_mask=first_attn_mask | torch.triu(torch.ones(dec_x_batch.size()[1],dec_x_batch.size()[1]),diagonal=1).bool().unsqueeze(0).expand(dec_x_batch.size()[0],-1,-1) # &目标序列的向后看掩码