强化学习
文章平均质量分 69
夏秃然
危机就是转机。
展开
-
离线强化学习算法集锦
本文介绍了多种离线强化学习算法的实现,包括BCQ、BEAR、TD3-BC、CQL、IQL、AWAC和BC。这些算法都可以独立运行并测试,旨在通过离线数据进行训练,并在最后提供了基于PyTorch的代码实现。具体介绍了每种算法的原理和特点,包括从离线数据中学习策略、自举方法减少误差积累、行为克隆结合双延迟DDPG等技术。文章提供了GitHub项目地址和csdn资源链接,读者可以获取更多详细信息和代码实现。原创 2024-03-11 17:26:46 · 473 阅读 · 0 评论 -
在线强化学习算法集锦
本文实现了多种在线强化学习算法,包括Q-learning、SARSA、DQN、Double-DQN、Dueling-DQN、PG、AC、PPO、DDPG、TD3、SAC。每个算法都能独立运行并测试,提供了PyTorch版本的代码实现。这些算法覆盖了值迭代、策略优化、深度学习等多个方面,适用于不同环境和问题。欢迎访问GitHub项目地址获取详细信息和代码实现。此外,你也可以在csdn上找到同步的资源。原创 2024-02-01 10:05:36 · 590 阅读 · 0 评论