BartModel 输出变量解释（来自hugging face 网站）

znsoft

已于 2022-03-23 09:55:05 修改

阅读量2.5k

点赞数

分类专栏： NLP 文章标签：人工智能自然语言处理

于 2022-03-22 16:20:32 首次发布

本文链接：https://blog.csdn.net/znsoft/article/details/123663785

版权

NLP 专栏收录该内容

4 篇文章

订阅专栏

last_hidden_state ： (类型为 torch.FloatTensor ，形状 (batch_size, sequence_length, hidden_size))

模型的最后一层解码器输出的隐藏状态序列。

如果使用past_key_values，则只输出形状为（batch_size, 1, hidden_size）的序列的最后一个隐藏状态。

past_key_values ： (tuple(tuple(torch.FloatTensor)), optional ,当use_cache=True被传递或当config.use_cache=True时返回)

长度为config.n_layers的tuple(torch.FloatTensor)的元组。每个元组有2个张量，形状为（batch_size, num_heads, sequence_length, embed_size_per_head））和另外2个张量，形状为（batch_size, num_heads, encoder_sequence_length, embed_size_per_head）。

包含预先计算好的隐藏状态（自注意力块和交叉注意力块中的键和值），可以用来（参见past_key_values 的输入）加速顺序解码。

decoder_hidden_states ： (tuple(torch.FloatTensor), optional, 当 output_hidden_states=True被传递或config.output_hidden_states=True时返回) - torch.FloatTensor 类型的元组（一个用于嵌入的输出+一个用于每层的输出），形状为（batch_size, sequence_length, hidden_size）。

每层输出的解码器的隐藏状态加上初始嵌入的输出。

decoder_attentions : (tuple(torch.FloatTensor), optional, when output_attentions=True is passed or when config.output_attentions=True) - torch.FloatTensor 类型的元组（每层一个），形状为（batch_size, num_heads, sequence_length, sequence_length）。

解码器的注意力权重，在注意力计算softmax之后，用于计算自注意力头的加权平均值。

cross_attentions: (tuple(torch.FloatTensor), optional, when output_attentions=True is passed or when config.output_attentions=True) - torch.FloatTensor 类型的元组（每层一个），形状为（batch_size, num_heads, sequence_length, sequence_length）

解码器交叉注意力层的注意力权重，在注意力计算softmax之后，用于计算交叉注意力头中的加权平均值。

encoder_last_hidden_state: (torch.FloatTensor 类型张量，形状为 (batch_size, sequence_length, hidden_size), 可选)

模型中最后一层编码器输出的隐藏状态序列。

encoder_hidden_states： (tuple(torch.FloatTensor), 可选, 当output_hidden_states=True被传递或config.output_hidden_states=True时返回) - torch.FloatTensor 类型元组（一个用于嵌入输出，一个用于每层输出），形状为（batch_size, sequence_length, hidden_size）。

编码器在每层输出的隐藏状态加上初始嵌入输出。

encoder_attentions： (tuple(torch.FloatTensor), optional, when output_attentions=True is passed or when config.output_attentions=True) - torch.FloatTensor（每层一个）的元组，形状（batch_size, num_heads, sequence_length, sequence_length。

编码器的注意力权重，在对注意力计算 softmax 之后，用于计算自注意力头的加权平均值。