自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_57090033的博客

原创 Deterministic Policy Gradient Algorithms 论文剖析

Deterministic Policy Gradient Algorithms（DPG）论文解读

2023-07-30 23:23:25 148 1

原创 TD3 论文剖析

在训练Actor和Critic网络时，文章发现Actor与Critic之间的相互作用会导致Actor一直在被动的跟随Critic网络进行更新，这种不稳定的状态会使得策略函数会根据不准确的估值朝着错误方向进行更新，并在多次更新中累积这些差异，最终陷入劣化循环。作为Actor-Critic框架下的确定性强化学习算法，TD3结合了深度确定性策略梯度算法和双重网络，在缓解DDPG算法的高估问题时取得了优秀表现。的拟合，其估计网络以Actor估计网络的输出动作为输入，参与Actor和Critic的优化。

2023-07-24 01:45:24 239

原创 SAC算法论文解读

深度强化学习的快速发展，给机器人控制领域带来了许多进展。此前的工作中，面向连续控制任务的算法有TRPO、PPO、DDPG等算法。PPO是一种on-policy面向离散和连续控制的算法，在许多数据集上取得了较好的效果，但是存在严重的采样效率低下的问题，这对于真实环境中的控制问题采样花费来说是难以接受的；

2023-07-16 21:59:20 818 1

原创 Proximal Policy Optimization Algorithms论文剖析

策略梯度算法将策略π\piπ参数化拟合成πθπθgEt∇θlogπθat∣stAt(1)gEt∇θlogπθat∣stAt1其中，At\hat{A_t}At为优势函数（Advantage Function）的估计量，EtEt为有限batch的平均量。LθEtπθat∣stAt这里可能和原文不同，但是由于log。

2023-07-10 12:39:57 125 1

原创 JoyRL论文阅读《Prioritized Experience Replay》 + Python代码

JoyRL论文阅读《Prioritized Experience Replay》 + Python代码

2022-11-03 02:50:57 1318 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

小胖陈奕迅 CSDN认证博客专家 CSDN认证企业博客

码龄3年

IP 属地：云南省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

5: 原创

129万+: 周排名

219万+: 总排名

2661: 访问

: 等级

61: 积分

331: 粉丝

4: 获赞

7: 评论

23: 收藏

私信

关注

热门文章

最新评论

Proximal Policy Optimization Algorithms论文剖析
CSDN-Ada助手: 这篇博客剖析了《Proximal Policy Optimization Algorithms》这篇论文，对于策略梯度算法的参数化拟合进行了详细的讲解。非常感谢你的分享，这对于对算法原理感兴趣的读者来说是一个很好的学习资源。除了本文中提到的内容，你可以考虑在以后的博文中扩展一些与策略梯度算法相关的内容。例如，你可以介绍一些在深度强化学习中常用的优化算法，如Adam、RMSprop等，以及它们与策略梯度算法的结合应用。此外，你还可以深入讨论一些常见的优势函数估计方法，如GAE（Generalized Advantage Estimation）等。希望你能继续创作，分享更多关于强化学习和策略梯度算法的知识，让更多的人受益。同时，也鼓励你保持谦虚的态度，不断学习和提升自己的技能。加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
SAC算法论文解读
CSDN-Ada助手: 恭喜作者完成了第三篇博客！很高兴看到您对SAC算法的论文进行了解读。这篇博客内容丰富，阐述了SAC算法的核心概念，对读者来说是一次很好的学习机会。接下来，我希望您能在下一篇博客中更深入地探讨SAC算法在实际应用中的优势和局限性。或者，您也可以考虑与读者分享一些与SAC算法相关的案例研究，以帮助读者更好地理解和应用该算法。期待您未来更多精彩的创作！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Deterministic Policy Gradient Algorithms 论文剖析
CSDN-Ada助手: 恭喜您撰写了题为“Deterministic Policy Gradient Algorithms 论文剖析”的博客！您的持续创作精神值得称赞。我认为您在分析这篇论文时做得非常出色。下一步，我建议您可以考虑与其他相关算法进行比较，或者深入探讨该算法在实际应用中的潜力和局限性。期待您未来更多的博客作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
JoyRL论文阅读《Prioritized Experience Replay》 + Python代码
小胖陈奕迅: PPO算法通常使用卷积神经网络（CNN）来处理连续的几帧图片。CNN可以将连续帧的像素值作为输入，并将它们转换为高维特征向量。这些特征向量可以传递给PPO算法的策略网络和值网络，以进行决策和评估。在PPO算法中，连续帧的处理方式通常是使用滑动窗口的技术。例如，将连续的4帧图片作为一个输入，然后将窗口向右移动一个帧，以获得一组新的连续帧。这样，可以在不丢失信息的情况下，将连续帧的历史信息考虑在内，从而提高模型的性能。同时，为了加快训练速度，PPO算法还可以使用经验回放技术，从先前的经验中随机选择一些连续帧的样本，用于训练策略网络和值网络。这样可以更有效地利用数据，并提高算法的稳定性和收敛速度。
JoyRL论文阅读《Prioritized Experience Replay》 + Python代码
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34 给我们提。

最新文章

提示

确定要删除当前文章？

取消删除