规模化强化学习 — 分层强化学习

笑傲江湖2023

已于 2024-02-26 18:20:15 修改

阅读量856

点赞数 24

文章标签：机器人学习

于 2024-02-19 11:42:25 首次发布

本文链接：https://blog.csdn.net/weixin_48878618/article/details/136166649

版权

1.概念

强化学习中必须要有合适的奖励方式，引导智能体得到好的决策序列，但面对庞大的状态空间和动作空间，奖励往往是稀疏的，很多时候是无法收敛的，为了解决这个问题，可以考虑将复杂问题，逐层分解，简单化，或者说将一个大问题，分解成多个小问题。在此基础上，每一个小问题就变成了多个小目标，如何选取小目标实分层的核心。

在传统的强化学习中，智能体（agent）学习在给定环境中通过状态（state）和奖励（reward）来选择动作（action），从而最大化累计奖励。对于简单问题，这种方法是有效的。然而，当面对高度复杂或需要长期规划的任务时，这种方法就会遇到困难，因为状态和动作空间会变得非常大，使得学习过程变得缓慢且困难。

分层强化学习解决这个问题的方法是将决策过程分解成多个层级。在这种结构中，每个层级关注不同的决策粒度：

高层级（High Level）：更抽象的决策层，通常决定子目标或子任务。在这个层级，决策的频率较低，但每个决策会影响长时间范围内低层级的行为。
低层级（Low Level）：更具体的行为层，执行高层级指定的子任务。在这个层级，决策频率较高，通常关注短时间内的最佳行为。

这种方法的关键优点包括：

更快的学习速度：通过把复杂任务分解为简单子任务，智能体可以更快地学习解决子任务的策略，因为每个子任务的状态和动作空间都比原始任务小得多。
提高学习效率：智能体可以重用已学习的子任务策略来解决不同但相关的问题，这样可以减少学习新任务所需的样本数量。
加强规模扩展性：分层强化学习可以更有效地扩展到大型和复杂的环境中，因为层次结构帮助简化了决策过程。

2.分层强化学习和传统强化学习的关系

分层强化学习（Hierarchical Reinforcement Learning, HRL）是一种构架，旨在管理复杂强化学习问题的层次结构。而PPO（Proximal Policy Optimization）、AC（Actor-Critic）和DDPG（Deep Deterministic Policy Gradient）是强化学习中的具体算法。虽然这些算法通常用于单层决策过程，但它们也可以在分层强化学习框架中发挥作用。以下是它们与HRL之间的关系：

PPO、AC、DDPG作为低层策略：
- 在分层强化学习框架中，PPO、AC和DDPG这样的算法可以被用作低层策略，即它们负责执行高层策略设定的子目标或选项（Options）。
- 例如，一个高层策略可以决定各种子目标（如导航到不同的房间），而PPO、AC和DDPG可以在低层决定如何具体实现这些子目标的动作序列。
PPO、AC、DDPG作为高层策略：
- 同样地，这些算法也可以用来作为高层策略，选择不同的子策略或选项来执行。
- 在这个级别，算法不是在每个时间步选择具体的动作，而是选择一个会影响多个时间步的子策略或选项。
训练和适应性：
- 在一个分层的结构中，可以独立地或同时训练高层和低层策略。PPO、AC和DDPG算法都可以利用其稳定的学习特性来提高策略的性能。
- 在高层策略中，这些算法可能需要适应更粗粒度的决策，而在低层策略中则需要处理更细粒度的动作选择。
探索和利用：
- 分层强化学习中的高层策略可以帮助指导探索过程，通过选择不同的子策略或子目标来探索状态空间的不同区域。
- PPO、AC和DDPG等算法可以在高层或低层中利用它们已经学到的知识来平衡探索与利用。
整合和模块化：
- 分层强化学习的层次结构允许将PPO、AC和DDPG等算法作为模块整合到复杂的系统中。
- 通过这种方式，智能体可以在不同的层次上学习策略，而且可以将在一个子任务中学到的策略迁移到另一个相关的子任务中。

总结来说，分层强化学习提供了一个多层次的决策过程，而PPO、AC和DDPG等算法可以在这些不同的层次上被应用，无论是作为高层策略来选择子任务，还是作为低层策略来执行具体的动作。通过这种方式，可以利用这些算法的优点来处理更复杂的问题，从而提高学习效率和任务的性能。

3 DDPG在分层强化学习中的应用

分层强化学习（Hierarchical Reinforcement Learning, HRL）涉及将复杂的任务分解成多个子任务，并在不同的层次上分别学习。在分层模型中，每个子任务可以由一个单独的智能体（或称为策略）来处理，这些策略通常被组织为高层策略和低层策略。

DDPG（Deep Deterministic Policy Gradient）可以在分层强化学习中应用于任一层，但由于其连续动作空间的特点，它尤其适合于低层策略的学习，即直接与环境交互的部分。

以下是一个例子，说明如何在机器人任务中应用DDPG进行分层强化学习：

任务描述：

假设一个机器人的任务是在一个大型仓库内找到货物并将其运送到指定地点。这个任务可以分解为两个子任务：导航（找到货物的位置）和操纵（抓取货物并运送）。

3.1 分层结构设定

高层策略：负责决定机器人的宏观行为，如选择下一个要找寻或送达的货物。这个策略可以是基于目标的，为低层策略提供目标或方向性的指引。
低层策略：在高层策略的指导下执行具体的动作，如导航到货物位置或者执行抓取动作。由于这些任务通常涉及连续的动作空间，DDPG在这里特别适用。

3.2 DDPG在低层策略中的应用：

在低层策略中，DDPG可以用来训练机器人执行精细的控制任务。

导航子任务：DDPG的演员网络学习如何基于环境状态（从摄像头和其他传感器获得的信息）生成连续的导航动作（如转向角度和移动速度），而评论家网络评估这些动作的长期价值。
操纵子任务：当机器人靠近货物时，DDPG的演员网络学习如何产生精确的臂部和手部运动来安全抓取货物，并将其搬运。

3.3 高层策略与低层DDPG策略的交互

高层策略可能会为低层策略设定子目标，如导航到特定货架或抓取特定物品。

目标设定：高层策略产生的目标（例如货物的粗略位置）被传递到低层的DDPG策略中，作为其状态输入的一部分。
目标达成反馈：低层策略在完成高层指定的子目标后，会向高层策略反馈结果，帮助高层策略进行下一步的决策。

通过这种分层方法，DDPG可以有效地用于处理那些需要精细控制连续动作的子任务。同时，通过将复杂任务分解为可管理的子任务，可以提高学习效率，并使得智能体能够更好地泛化到新的、相似的任务上。这种分层结构也允许独立地优化各个层次，使得训练过程更为灵活和高效。

参考文献

1.【干货总结】分层强化学习(HRL)全面总结-CSDN博客

笑傲江湖2023

关注

24
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
规模化强化学习 — 分层强化学习

强化学习中必须要有合适的奖励方式，引导智能体得到好的决策序列，但面对庞大的状态空间和动作空间，奖励往往是稀疏的，很多时候是无法收敛的，为了解决这个问题，可以考虑将复杂问题，逐层分解，简单化，或者说将一个大问题，分解成多个小问题。总结来说，分层强化学习提供了一个多层次的决策过程，而PPO、AC和DDPG等算法可以在这些不同的层次上被应用，无论是作为高层策略来选择子任务，还是作为低层策略来执行具体的动作。通过这种方式，可以利用这些算法的优点来处理更复杂的问题，从而提高学习效率和任务的性能。
复制链接

扫一扫