self.projection = nn.Linear(d_model, target_vocab_size, bias=False).cuda() dec_logits = self.projection(dec_outputs) 在这一步将输出(2,6,512)的维度的数据经过处理变成了(2,6,9)的维度 return dec_logits.view(-1, dec_logits.size(-1)), enc_self_attns, dec_self_attns, dec_enc_attns
最后return的dec_logits.view(-1, dec_logits.size(-1))的维度是(12,9)
在最后的loss的计算的时候,会将绿色的维度为12的真实的标签进行onehot编码来计算loss。