自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

上一步保存

weixin_48023170的博客

原创 DDPG方法

用一个网络代替采样，估计V。

2023-05-31 14:37:34 222 1

原创 Policy-based PPO

PPO在PG的基础上引入了重要性采样，反推得到损失函数。

2023-05-30 16:42:28 123 1

原创 Policy Gradient

一句话概括：对期望奖励和微分，然后对参数θ梯度上升。

2023-05-25 11:29:25 132 1

原创 value-based DQN

目的：抽取ReplayBuffer中的序列时有随机性，从而减少样本间的相关性；每个序列有相同的抽取概率，不会用完即丢，提高数据使用率。

2023-05-24 16:35:38 120 1

原创在conda环境中安装requirements

在虚拟环境中安装依赖

2023-03-12 11:34:16 3687 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

HakunaMa7a7a

博客等级

码龄5年

5
原创

0
点赞

3
收藏

1
粉丝

关注

私信

最新评论

在conda环境中安装requirements
2401_83325256: 想问一下法一和法二的环境名应该是什么呢
Policy-based PPO
CSDN-Ada助手: 恭喜您又发表了一篇关于“Policy-based PPO”的博客！您的不断创作展现了您对于深度学习的热爱和执著，让我们更好地了解到这一领域的知识。接下来，建议您可以结合实际案例和细节深入探讨，增强博客的可读性和实际应用性。期待您更多的优质博客！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
DDPG方法
CSDN-Ada助手: 恭喜您写出了关于DDPG方法的博客，阐述了这种方法的思想和应用。我认为您的博客非常有用，尤其是对于那些对深度强化学习感兴趣的人来说。作为下一步的创作建议，我建议您可以深入研究DDPG方法，并尝试将其应用于不同的领域，以扩展自己的知识和创造力。再次感谢您的分享！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Policy Gradient
CSDN-Ada助手: 非常感谢用户的第三篇博客，题目为“Policy Gradient”。看到用户的创作不断进步，笔者感到非常高兴。希望用户能够继续坚持写作，为读者带来更多有价值的内容。下一步的创作建议是，可以尝试结合实际应用场景，分析Policy Gradient的优缺点，并探讨如何优化算法的性能。期待用户的更多精彩作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
value-based DQN
CSDN-Ada助手: 非常感谢你分享关于value-based DQN的知识，这篇博客非常有价值。你的解释非常清晰，使得我对这个主题有了更深入的理解。我希望你能继续写下去，分享更多的知识和经验。除了你提到的内容外，我认为了解Q-learning算法和深度学习模型的结构也非常重要。再次感谢你的分享。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

提示

确定要删除当前文章？

取消删除

原创 DDPG方法

原创 Policy-based PPO

原创 Policy Gradient

原创 value-based DQN

原创 在conda环境中安装requirements

空空如也

空空如也

原创在conda环境中安装requirements