自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Deterministic Policy Gradient Algorithms 论文剖析

Deterministic Policy Gradient Algorithms(DPG)论文解读

2023-07-30 23:23:25 148 1

原创 TD3 论文剖析

在训练Actor和Critic网络时,文章发现Actor与Critic之间的相互作用会导致Actor一直在被动的跟随Critic网络进行更新,这种不稳定的状态会使得策略函数会根据不准确的估值朝着错误方向进行更新,并在多次更新中累积这些差异,最终陷入劣化循环。作为Actor-Critic框架下的确定性强化学习算法,TD3结合了深度确定性策略梯度算法和双重网络,在缓解DDPG算法的高估问题时取得了优秀表现。的拟合,其估计网络以Actor估计网络的输出动作为输入,参与Actor和Critic的优化。

2023-07-24 01:45:24 239

原创 SAC算法论文解读

深度强化学习的快速发展,给机器人控制领域带来了许多进展。此前的工作中,面向连续控制任务的算法有TRPO、PPO、DDPG等算法。PPO是一种on-policy面向离散和连续控制的算法,在许多数据集上取得了较好的效果,但是存在严重的采样效率低下的问题,这对于真实环境中的控制问题采样花费来说是难以接受的;

2023-07-16 21:59:20 818 1

原创 Proximal Policy Optimization Algorithms论文剖析

策略梯度算法将策略π\piπ参数化拟合成πθπθ​gEt∇θlogπθat∣stAt(1)g​Et​​∇θ​logπθ​at​∣st​At​​1其中,At\hat{A_t}At​​为优势函数(Advantage Function)的估计量,EtEt​为有限batch的平均量。LθEtπθat∣stAt这里可能和原文不同,但是由于log。

2023-07-10 12:39:57 125 1

原创 JoyRL论文阅读《Prioritized Experience Replay》 + Python代码

JoyRL论文阅读《Prioritized Experience Replay》 + Python代码

2022-11-03 02:50:57 1318 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除