强化学习训练

最新推荐文章于 2025-03-18 20:47:13 发布

三月七꧁ ꧂

最新推荐文章于 2025-03-18 20:47:13 发布

阅读量715

点赞数 22

分类专栏： LLM 文章标签： langchain 语言模型深度学习人工智能 prompt gpt llama

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43961909/article/details/142746976

版权

LLM 专栏收录该内容

56 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

文章目录

- PPO介绍
- 训练策略

由于 RLHF 的训练过程中需要依赖大量的人类偏好数据进行学习，因此很难在训练过程中要求人类标注者实时提供偏好反馈。为此，我们需要训练一个模型来替代人类在 RLHF 训练过程中实时提供反馈，这个模型被称为奖励模型。在训练开始前，我们需要预先构造一系列相关问题作为输入。人类标注者将针对这些问题标注出符合人类偏好的输出以及不符合人类偏好的输出。收集到这些人类偏好数据后，就可以用来训练奖励模型。经过充分训练的奖励模型能够有效地拟合人类偏好，并在后续的强化学习训练过程中替代人类提供反馈信号。这样一来，就可以在保证训练效率的同时，加强模型行为与人类期望的一致性。

PPO介绍

强化学习是 RLHF 中的核心优化算法。一般来说，强化学习旨在训练一个智能体，该智能体与外部环境进行多轮交互，通过学习合适的策略进而最大化从外部环境获得的奖励。在强化学习的过程中，智能体是根据外部环境决定下一步行动的决策者，因此其被称为策略模型。在智能体和外部环境第 𝑡 次交互的过程中，智能体需要根据当前外部环境的状态 𝑠𝑡 选择合适的策略，决定下一步该做出的行动 𝑎𝑡。当智能体采取了某个行动之后，外部环境会从原来的状态 𝑠𝑡 变化为新的状态 𝑠𝑡+1。此时，外部环境会给予智能体一个奖励分数 &#x

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

三月七꧁ ꧂ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。