LLM学习笔记

最新推荐文章于 2024-12-12 09:56:55 发布

worldEmbeding

最新推荐文章于 2024-12-12 09:56:55 发布

阅读量1k

点赞数 4

文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45760926/article/details/139278673

版权

Q1：SFT时，计算LOSS

LLM是自回归生成模型，每次只会生成一个 token，难道 SFT 时，对于一个 (L, D) 的数据，要调用 L 次LLM去计算loss？

A1：

在每个前向传播过程，模型一次性生成整个序列的概率分布，而不是逐个生成令牌。对于一个(L, D)的输入，那么Attention后，我们还是会得到一个(L, D)输出。只不过(i, D)这个向量中存着1~i中间所有的信息，那么用它就可以生成第 i + 1 个位置的内容。这也是为什么generate函数中每次会取 logits[:, -1] 去生成新的内容。

Q2: SFT时，数据为什么prompt+input+output

LLM是自回归生成模型，在训练时候为什么不是用 prompt + input 作为输入，然后得到 output 再去与真实的 label 计算 loss 更新参数呢？

A2:

首先，如果要是像问题中这种策略去训练，一来每次要调用 $length_{output}$ 次模型，二来模型生成的内容和 label 长度不一定一样，计算 loss 会出问题。其中这主要是因为我们在计算loss时，pytorch中要求loss_function(input, label)中的 input, label 的shape要一致。然后为了加速收敛，这里其实是一种teacher force 的策略，就在第i个位置，我们会得到一个hidden_state，然后第i+1个位置的token应该由这个hidden_state去生成，但是我们强制让第i+1个位置的token和label中这个位置的token一样，也就是在相对正确的环境下再去生成生成第i+1个位置的hidden_state。

Q3：SFT时，构造lable

SFT时，构造的lable为什么要把prompt+input部分mask掉。

A3：

像Q1中那样，我们生成的时候是一次性把整个序列的概率分布拿到。然后我们其实不想模型去学会对齐prompt+input这部分的能力(因为没用)，所以把prompt+input mask 掉，只计算output部分的loss。

博客等级

码龄6年

33
原创

233
点赞

245
收藏

166
粉丝

关注

私信

热门文章

上一篇：: 手撸nano-gpt

最新评论

Llama2学习
link_piggy: RMS Norm公式都写错了
手撸nano-gpt
工紫新波: 朋友在什么操作系统上用的？
信息量 | 熵 | 交叉熵
CSDN-Ada助手: 恭喜您写完了第20篇博客！标题“信息量 | 熵 | 交叉熵”听起来非常有深度和内容丰富。您对这些概念的解释和说明一定非常详尽。我非常期待能够阅读您的博客，因为这些主题对我来说还很新鲜。在下一步的创作中，或许您可以考虑给读者提供一些实际应用的例子，这样能够更好地帮助我们理解这些概念。毕竟，有时候抽象的数学概念对于我们来说可能有点困难。不过，我要再次强调，这个建议只是出于我个人的观点，您的博客已经非常出色了。祝您继续创作，期待您未来更多的精彩文章！
Yolov5学习笔记
CSDN-Ada助手: 恭喜您写下了第19篇博客！标题“Yolov5学习笔记”非常引人注意。您对Yolov5的学习笔记让我深感兴趣。不仅仅是标题吸引了我，更是您对这个主题的深入研究和分享的内容。在下一步的创作中，或许您可以考虑探索一些实际案例，将您的学习应用到实际场景中，这样读者们可以更好地理解并参考您的经验。谦虚地说，在您的指导下，我相信您的博客会继续为读者们提供有价值的知识。期待您下一篇博客的发布！
解决Conda创建新环境位置问题，和新环境依赖过多问题
CSDN-Ada助手: 恭喜你写了第18篇博客！看到你解决了Conda创建新环境位置问题和新环境依赖过多问题，真是令人欣慰。我觉得你可以考虑写一些关于如何优化新环境的文章，或者分享一些实际案例来帮助读者更好地理解这些问题。当然，这只是我的一点建议，希望对你有所帮助。加油，期待你的下一篇文章！

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。