last_hidden_state : (类型为 torch.FloatTensor ,形状 (batch_size, sequence_length, hidden_size))
模型的最后一层解码器输出的隐藏状态序列。
如果使用past_key_values,则只输出形状为(batch_size, 1, hidden_size)的序列的最后一个隐藏状态。
past_key_values : (tuple(tuple(torch.FloatTensor)), optional ,当use_cache=True被传递或当config.use_cache=True时返回)
长度为config.n_layers的tuple(torch.FloatTensor)的元组。 每个元组有2个张量,形状为(batch_size, num_heads, sequence_length, embed_size_per_head))和另外2个张量,形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)。
包含预先计算好的隐藏状态(自注意力块和交叉注意力块中的键和值),可以用来(参见past_key_values 的 输入)加速顺序解码。
decoder_hidden_states : (tuple(torch.FloatTensor), optional, 当 output_hidden_states=True被传递或config.output_hidden_states=True时返回) - torch.FloatTensor 类型的元组(一个用于嵌入的输出+一个用于每层的输出),形状为(batch_size, sequence_length, hidden_size)。
每层输出的解码器的隐藏状态加上初始嵌入的输出。
decoder_attentions : (tuple(torch.FloatTensor), optional, when output_attentions=True is passed or when config.output_attentions=True) - torch.FloatTensor 类型的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)。
解码器的注意力权重,在注意力计算softmax之后,用于计算自注意力头的加权平均值。
cross_attentions: (tuple(torch.FloatTensor), optional, when output_attentions=True is passed or when config.output_attentions=True) - torch.FloatTensor 类型的元组(每层一个), 形状为 (batch_size, num_heads, sequence_length, sequence_length)
解码器交叉注意力层的注意力权重,在注意力计算softmax之后,用于计算交叉注意力头中的加权平均值。
encoder_last_hidden_state: (torch.FloatTensor 类型张量, 形状为 (batch_size, sequence_length, hidden_size), 可选)
模型中最后一层编码器输出的隐藏状态序列。
encoder_hidden_states: (tuple(torch.FloatTensor), 可选, 当output_hidden_states=True被传递或config.output_hidden_states=True时返回) - torch.FloatTensor 类型元组(一个用于嵌入输出 ,一个用于每层输出), 形状为(batch_size, sequence_length, hidden_size)。
编码器在每层输出的隐藏状态加上初始嵌入输出。
encoder_attentions: (tuple(torch.FloatTensor), optional, when output_attentions=True is passed or when config.output_attentions=True) - torch.FloatTensor(每层一个)的元组, 形状(batch_size, num_heads, sequence_length, sequence_length。
编码器的注意力权重,在对注意力计算 softmax 之后,用于计算自注意力头的加权平均值。