
LLM学习笔记
LLM是自回归生成模型,每次只会生成一个 token,难道 SFT 时,对于一个 (L, D) 的数据,要调用 L 次LLM去计算loss? 像Q1中那样,我们生成的时候是一次性把整个序列的概率分布拿到。 在每个前向传播过程,模型一次性生成整个序列的概率分布,而不是逐个生成令牌。 首先,如果要是像问题中这种策略去训练,一来每次要调用。的输入,那么Attention后,我们还是会得到一个。一样,也就是在相对正确的环境下再去生成生成第。的策略,就在第i个位置,我们会得到一个。 SFT时,构造的。





















