【动手学习pytorch笔记】34.带注意力机制的seq2seq

最新推荐文章于 2023-11-18 22:03:21 发布

YMK_0

最新推荐文章于 2023-11-18 22:03:21 发布

阅读量582

点赞数

分类专栏： pytorch学习笔记文章标签： pytorch 深度学习学习 nlp

本文链接：https://blog.csdn.net/ymk1998/article/details/124223784

版权

pytorch学习笔记专栏收录该内容

42 篇文章 30 订阅

订阅专栏

带注意力机制的seq2seq

理论

回忆一下seq2seq，编码器的输出了一个state给解码器，context = state[-1].repeat(X.shape[0], 1, 1)，解码器吧state作为上下文对象和解码器输入一起并入丢到RNN中。

在这里插入图片描述

seq2seq解码器

class Seq2SeqDecoder(d2l.Decoder):
    """用于序列到序列学习的循环神经网络解码器"""
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
                 dropout=0, **kwargs):
        super(Seq2SeqDecoder, self).__init__(**kwargs)
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.rnn = nn.GRU(embed_size + num_hiddens, num_hiddens, num_layers,
                          dropout=dropout)
        self.dense = nn.Linear(num_hiddens, vocab_size)

def init_state(self, enc_outputs, *args):
    return enc_outputs[1]

def forward(self, X, state):
    # 输出'X'的形状：(batch_size,num_steps,embed_size)
    # permute(1, 0, 2)把'num_steps'和'num_steps'换一下
    X = self.embedding(X).permute(1, 0, 2)
    
    # 广播context，使其具有与X相同的num_steps
    context = state[-1].repeat(X.shape[0], 1, 1)
    X_and_context = torch.cat((X, context), 2)
    output, state = self.rnn(X_and_context, state)
    output = self.dense(output).permute(1, 0, 2)

    # output的形状:(batch_size,num_steps,vocab_size)
    # state[0]的形状:(num_layers,batch_size,num_hiddens)
    return output, state

这样有个问题：

编码器的state真的是解码器最需要的信息吗？对于机器翻译这种任务，对应词的信息是比较关键的，比如英->法，翻译bonjour的时候，解码器更想看到编码器中‘hello’经过RNN输出的隐藏状态，这个问题，用attention就可以解决。

在这里插入图片描述

k,v：编码器RNN的输出

q：解码器上一个时间步的输出隐藏状态，和k,v计算Attention再进入RNN得到输出

代码

import torch
from torch import nn
from d2l import torch as d2l

#@save

class AttentionDecoder(d2l.Decoder):
    """带有注意力机制解码器的基本接口"""
    def __init__(self, **kwargs):
        super(AttentionDecoder, self).__init__(**kwargs)

    @property
    def attention_weights(self):
        raise NotImplementedError

编码器区别不大，主要区别在解码器

class Seq2SeqAttentionDecoder(AttentionDecoder):
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
                 dropout=0, **kwargs):
        super(Seq2SeqAttentionDecoder, self).__init__(**kwargs)
       self.attention = d2l.AdditiveAttention(
            num_hiddens, num_hiddens, num_hiddens, dropout)
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.rnn = nn.GRU(
            embed_size + num_hiddens, num_hiddens, num_layers,
            dropout=dropout)
        self.dense = nn.Linear(num_hiddens, vocab_size)

    def init_state(self, enc_outputs, enc_valid_lens, *args):
        # outputs的形状为(batch_size，num_steps，num_hiddens).
        # hidden_state的形状为(num_layers，batch_size，num_hiddens)
        outputs, hidden_state = enc_outputs
        return (outputs.permute(1, 0, 2), hidden_state, enc_valid_lens)

    def forward(self, X, state):
        # enc_outputs的形状为(batch_size,num_steps,num_hiddens).
        # hidden_state的形状为(num_layers,batch_size,num_hiddens)
        enc_outputs, hidden_state, enc_valid_lens = state
        # 输出X的形状为(num_steps,batch_size,embed_size)
        X = self.embedding(X).permute(1, 0, 2)
        outputs, self._attention_weights = [], []
       for x in X:
            # query的形状为(batch_size,1,num_hiddens)
            query = torch.unsqueeze(hidden_state[-1], dim=1)
            # context的形状为(batch_size,1,num_hiddens)
            context = self.attention(query, enc_outputs, enc_outputs, enc_valid_lens)
            # 在特征维度上连结
            x = torch.cat((context, torch.unsqueeze(x, dim=1)), dim=-1)
            # 将x变形为(1,batch_size,embed_size+num_hiddens)
            out, hidden_state = self.rnn(x.permute(1, 0, 2), hidden_state)
            outputs.append(out)
            self._attention_weights.append(self.attention.attention_weights)
        # 全连接层变换后，outputs的形状为
        # (num_steps,batch_size,vocab_size)
        outputs = self.dense(torch.cat(outputs, dim=0))
        return outputs.permute(1, 0, 2), [enc_outputs, hidden_state, enc_valid_lens]

    @property
    def attention_weights(self):
        return self._attention_weights

对于解码器的每个批量X输入，都对他做Attention

query = torch.unsqueeze(hidden_state[-1], dim=1)

hidden_state[-1]（批量大小，隐藏单元数）是编码器的输出state拿过来，因为编码器是两层的RNN所以取[-1] ，然后增加一维

上下文的构造 context = self.attention(query, enc_outputs, enc_outputs, enc_valid_lens)

key和value是enc_outputs编码器输出（时间步数，批量大小，隐藏单元数）编码器的输出在传入解码器使用init_state方法时，做了维度转换outputs.permute(1, 0, 2)（批量大小，时间步数，隐藏单元数）诶，这就对上了~

之后上下文拼接上解码器输入x，剩下的就很简单能看懂了

总结一下：

query：编码器输出的隐藏状态（批量大小，特征长度）->（批量大小，1，特征长度）特征长度在Attention中和W矩阵做乘法就被映射成隐藏单元数了（批量大小，1，隐藏单元个数）

key、value：编码器的输出（时间步数，批量大小，隐藏单元数）->（批量大小，时间步数，隐藏单元数）

key在Attention中被映射成（批量大小，，隐藏单元数）

value没变

context：做完Attention之后的值（批量大小，query的时间步1，value的特征长度）

X：解码器自己的输入（批量大小，时间步，特征长度）->（时间步，批量大小，特征长度）

x：每个时间步的输入（批量大小，特征长度）

丢入解码器RNN得到下一个query

outputs = self.dense(torch.cat(outputs, dim=0))最后的输出是把所有的输出拼在一起丢到线性层输出，why？

测试一下

encoder = d2l.Seq2SeqEncoder(vocab_size=10, embed_size=8, num_hiddens=16,
                             num_layers=2)
encoder.eval()
decoder = Seq2SeqAttentionDecoder(vocab_size=10, embed_size=8, num_hiddens=16,
                                  num_layers=2)
decoder.eval()
X = torch.zeros((4, 7), dtype=torch.long)  # (batch_size,num_steps)
state = decoder.init_state(encoder(X), None)
output, state = decoder(X, state)
output.shape, len(state), state[0].shape, len(state[1]), state[1][0].shape

输出

(torch.Size([4, 7, 10]), 3, torch.Size([4, 7, 16]), 2, torch.Size([4, 16]))

训练

embed_size, num_hiddens, num_layers, dropout = 32, 32, 2, 0.1
batch_size, num_steps = 64, 10
lr, num_epochs, device = 0.005, 250, d2l.try_gpu()

train_iter, src_vocab, tgt_vocab = d2l.load_data_nmt(batch_size, num_steps)
encoder = d2l.Seq2SeqEncoder(
    len(src_vocab), embed_size, num_hiddens, num_layers, dropout)
decoder = Seq2SeqAttentionDecoder(
    len(tgt_vocab), embed_size, num_hiddens, num_layers, dropout)
net = d2l.EncoderDecoder(encoder, decoder)
d2l.train_seq2seq(net, train_iter, lr, num_epochs, tgt_vocab, device)

loss 0.020, 4423.3 tokens/sec on cuda:0

在这里插入图片描述

测试翻译

engs = ['go .', "i lost .", 'he\'s calm .', 'i\'m home .']
fras = ['va !', 'j\'ai perdu .', 'il est calme .', 'je suis chez moi .']
for eng, fra in zip(engs, fras):
    translation, dec_attention_weight_seq = d2l.predict_seq2seq(
        net, eng, src_vocab, tgt_vocab, num_steps, device, True)
    print(f'{eng} => {translation}, ',
          f'bleu {d2l.bleu(translation, fra, k=2):.3f}')

go . => va !,  bleu 1.000
i lost . => j'ai perdu .,  bleu 1.000
he's calm . => je suis chez moi .,  bleu 0.000
i'm home . => je suis chez moi .,  bleu 1.000

画一下权重的图

attention_weights = torch.cat([step[0][0][0] for step in dec_attention_weight_seq], 0).reshape((
    1, 1, -1, num_steps))

# 加上一个包含序列结束词元
d2l.show_heatmaps(
    attention_weights[:, :, :, :len(engs[-1].split()) + 1].cpu(),
    xlabel='Key positions', ylabel='Query positions')

在这里插入图片描述

YMK_0

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
4
评论
【动手学习pytorch笔记】34.带注意力机制的seq2seq

带注意力机制的seq2seq理论回忆一下seq2seq，编码器的输出了一个state给解码器，context = state[-1].repeat(X.shape[0], 1, 1)，解码器吧state作为上下文对象和解码器输入一起并入丢到RNN中。seq2seq解码器class Seq2SeqDecoder(d2l.Decoder): """用于序列到序列学习的循环神经网络解码器""" def __init__(self, vocab_size, embed_size, num_
复制链接

扫一扫