强化学习中on_plicy和off_policy最大的区别

菩提树下的呆子

已于 2023-04-14 14:33:30 修改

阅读量1.3k

点赞数 2

分类专栏：机器学习文章标签：强化学习

于 2023-04-13 16:18:07 首次发布

本文链接：https://blog.csdn.net/weixin_43744732/article/details/130132813

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

策略更新方法可以分为两类：On-policy（在线策略）和Off-policy（离线策略）。它们之间的主要区别在于如何使用经验（状态、动作、奖励和下一个状态）来更新智能体的策略。以下是它们之间的主要区别：

数据来源：
- On-policy方法：仅使用当前策略生成的经验数据更新策略。这意味着智能体在每次更新策略后，必须使用新策略收集新的经验数据。想象一下，你在学习打篮球，每次学到新技能后，你必须重新练习，以便更好地掌握新技能。
- Off-policy方法：可以使用任何策略（包括非当前策略）生成的经验数据来更新当前策略。这使得离线策略方法可以有效地重用之前收集的经验数据，从而降低数据采样的要求。这就像你在学习打篮球时，可以观察别人的比赛，从他们的经验中学习和提高。
算法示例：
- On-policy方法的典型例子是：REINFORCE算法，Actor-Critic算法，PPO（Proximal Policy Optimization，近端策略优化）算法等。
- Off-policy方法的典型例子是：Q-learning，DQN（Deep Q-Networks），DDPG（Deep Deterministic Policy Gradient），SAC（Soft Actor-Critic）等。
样本效率：
- On-policy方法通常需要更多的样本才能学习有效的策略，因为它们在每次策略更新后必须重新采样新数据。
- Off-policy方法由于可以利用历史经验数据，通常具有更高的样本效率。
探索-利用权衡：
- On-policy方法中，智能体在每次更新策略后都会按照新策略探索环境。这使得智能体在学习过程中自然地进行探索和利用。在学习过程中，智能体需要平衡尝试新行为（探索）与利用已知优势（利用）之间的权衡。
- Off-policy方法则需要额外的机制来确保探索，例如使用ε-greedy策略或其他随机策略进行行动选择。这些策略可以与当前策略分开，在学习过程中独立地进行探索。

总之，On-policy和Off-policy方法之间的最大区别在于它们如何使用经验数据来更新策略。On-policy方法仅使用当前

菩提树下的呆子

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
强化学习中on_plicy和off_policy最大的区别

策略更新方法可以分为两类：On-policy（在线策略）和Off-policy（离线策略）。它们之间的主要区别在于如何使用经验（状态、动作、奖励和下一个状态）来更新智能体的策略。总之，On-policy和Off-policy方法之间的最大区别在于它们如何使用经验数据来更新策略。On-policy方法仅使用当前。
复制链接

扫一扫

专栏目录