在线强化学习算法集锦

夏秃然

已于 2024-02-01 10:06:34 修改

阅读量507

点赞数 6

分类专栏：强化学习文章标签： python 强化学习 pytorch

于 2024-02-01 10:05:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45616285/article/details/135958290

版权

强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文实现以下多种在线强化学习算法，每个算法都可以独立运行并测试，且在文章最后提供pytorch版本的代码实现，以下是每个算法的简要介绍：

1. Q-learning
Q-learning是一种基于值迭代的强化学习算法，用于学习在不同状态下采取各种动作的值函数。

2. SARSA
SARSA（State-Action-Reward-State-Action）是一种在线强化学习算法，类似于Q-learning，但在学习过程中使用实际采取的动作。

3. DQN (Deep Q-Network)
DQN是一种基于深度学习的Q-learning算法，通过深度神经网络来近似值函数，提高对复杂环境的适应性。

4. Double-DQN
Double-DQN是对DQN的改进，通过解决DQN中过高估计Q值的问题，提高了算法的性能。

5. Dueling-DQN
Dueling-DQN是一种改进的DQN变体，将值函数分解为状态值和动作优势两个部分，提高学习的效率。

6. PG (Policy Gradient)
Policy Gradient是一类基于策略优化的强化学习算法，直接优化策略参数，适用于连续动作空间。

7. AC (Actor-Critic)
Actor-Critic是一种结合了策略优化和值迭代的算法，通过一个策略网络（Actor）和一个值函数网络（Critic）实现学习。

8. PPO (Proximal Policy Optimization)
PPO是一种策略优化算法，通过在优化过程中引入一定的约束，确保策略更新的稳定性。

9. DDPG (Deep Deterministic Policy Gradient)
DDPG是一种适用于连续动作空间的深度强化学习算法，使用深度神经网络学习确定性策略。

10. TD3 (Twin Delayed DDPG)
TD3是对DDPG的改进，通过使用双Q网络和延迟更新等技术提高算法的稳定性。

11. SAC (Soft Actor-Critic)
SAC是一种基于最大熵理论的策略优化算法，通过最大化环境的熵来平衡探索和利用。

欢迎访问GitHub项目地址获取更多详细信息和代码实现。github传送门点击进入
csdn资源也有同步，可以下载代码实现。csdn传送门点击进入

关注

6
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
在线强化学习算法集锦

本文实现了多种在线强化学习算法，包括Q-learning、SARSA、DQN、Double-DQN、Dueling-DQN、PG、AC、PPO、DDPG、TD3、SAC。每个算法都能独立运行并测试，提供了PyTorch版本的代码实现。这些算法覆盖了值迭代、策略优化、深度学习等多个方面，适用于不同环境和问题。欢迎访问GitHub项目地址获取详细信息和代码实现。此外，你也可以在csdn上找到同步的资源。
复制链接

扫一扫

专栏目录

夏秃然 CSDN认证博客专家 CSDN认证企业博客

码龄5年

130: 原创

2万+: 周排名

2万+: 总排名

8万+: 访问

: 等级

1526: 积分

3933: 粉丝

133: 获赞

45: 评论

465: 收藏

私信

关注

热门文章

分类专栏

最新评论

win11下 “pytorch导出模型“ 以及 “C++使用onnxruntime部署”
夏秃然: 是的，地址就是https://github.com/microsoft/onnxruntime/releases 我当时使用的是onnxruntime-win-x64-1.16.3
win11下 “pytorch导出模型“ 以及 “C++使用onnxruntime部署”
your___: c++部分是需要提前安装配置onnx模块是吧，请问是安装的windows下的版本哈？
BM(Boyer-Moore) 算法详解
夏秃然: 你提出的观点是有一定道理的，确实在BM算法中，好后缀规则会引入一些额外的比较和移动，相比之下，直接通过坏字符规则来移动可能看起来更为简单和直接。然而，BM算法之所以使用好后缀规则，是因为它在实践中通常会带来更好的性能，尤其是在处理大型文本和模式时。下面是为什么BM算法使用好后缀规则的一些原因：减少比较次数：尽管好后缀规则可能会引入一些额外的比较，但它能够通过跳过一些无效的位置来减少总体比较次数。通过利用已匹配的部分，BM算法可以更有效地确定下一个可能的匹配位置，从而减少了需要比较的字符数目。更大的跳跃：好后缀规则允许BM算法在匹配失败时跳跃更远的距离。这种跳跃是通过找到好后缀的位置并将模式移动到该位置来实现的。这样的跳跃可以在某些情况下显著提高算法的性能，尤其是在模式和文本长度差异较大时。综合考虑：BM算法不仅使用了好后缀规则，还结合了坏字符规则。它们在不同的情况下发挥作用，共同确保了算法的高效性。在实践中，BM算法通过灵活地结合这两种规则，可以更好地适应不同类型的文本和模式，从而提高匹配的效率。虽然在某些情况下直接使用坏字符规则可能会更简单，但综合考虑下，在大多数情况下，BM算法使用好后缀规则能够提供更好的性能和更快的匹配速度。这是gpt的回复，我理解也是如此。
BM(Boyer-Moore) 算法详解
AsrielMao: 按我的理解： 1.在好后缀之前的逻辑，出现坏字符时，会从T的右边往左找第一个与坏字符相同的，再右移，这个过程就确保了S中坏字符的左侧是不存在T的。 2.在匹配了一部分之后再出现坏字符，此时已匹配部分如果包含坏字符，那么从T的最右边开始找坏字符，就会出现左移，而根据1的结论，左移操作是无意义的。 3.那么，只需要从T中当前匹配到坏字符的位置，向左再找坏字符，就可以保证不会左移了。我疑惑的点在于：当前匹配到的位置index是现成的可以直接往左找，每次只用比较一个字符就可以了；而好后缀还要去比较后缀长度的字符，不成还要继续匹配其其子后缀。看起来似乎更加耗费时空资源的样子。
BM(Boyer-Moore) 算法详解
夏秃然: 加上好后缀在某些情况加速匹配，即增加字符串移动位数

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

夏秃然 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。