打卡
文章平均质量分 93
学习打卡
Gaogaogaoshu
这个作者很懒,什么都没留下…
展开
-
# [0705] Task06 DDPG 算法、PPO 算法、SAC 算法【理论 only】
easy-rl PDF版本 笔记整理 P5、P10 - P12 joyrl 比对 补充 P11 - P13 OpenAI 文档整理 ⭐ https://spinningup.openai.com/en/latest/index.html最新版PDF下载地址:https://github.com/datawhalechina/easy-rl/releases国内地址(推荐国内读者使用):链接: https://pan.baidu.com/s/1isqQnpVRWbb3yh原创 2024-07-07 22:12:33 · 1022 阅读 · 0 评论 -
# [0701] Task05 策略梯度、Actor-critic 算法
最新版PDF下载地址:https://github.com/datawhalechina/easy-rl/releases链接: https://pan.baidu.com/s/1isqQnpVRWbb3yh83Vs0kbw 提取码: us6a参考链接 2:https://datawhalechina.github.io/joyrl-book/——————5、深度强化学习基础 ⭐️开源内容:https://linklearner.com/learn/summary/11。原创 2024-07-01 21:58:34 · 1124 阅读 · 2 评论 -
# [0628] Task04 DQN 算法及进阶
easy-rl PDF版本 笔记整理 P6 - P8 joyrl 比对 补充 P7 - P8 相关 代码 整理 待整理 !!最新版PDF下载地址:https://github.com/datawhalechina/easy-rl/releases国内地址(推荐国内读者使用):链接: https://pan.baidu.com/s/1isqQnpVRWbb3yh83Vs0kbw 提取码: us6aeasy-rl 在线版本链接 (用于 copy 代码) 参考链接 2:h原创 2024-06-28 21:47:54 · 814 阅读 · 0 评论 -
# [0624] Task03 深度学习基础
参考链接 :https://datawhalechina.github.io/joyrl-book/开源内容:https://linklearner.com/learn/summary/11。LSTM (输入门、遗忘门、输出门)、GRU(更新门、重置门)局部感受野、权重共享、池化层、归一化和 Dropout。连续动作, 汽车方向盘转动角度, tanh 激活函数。Adam: 当前梯度 和 之前梯度的平方。动量法: 考虑当前的梯度 和 之前的梯度。线性回归 均方差损失。逻辑回归 交叉熵损失。原创 2024-06-24 21:17:31 · 899 阅读 · 0 评论 -
# [0622] Task02 model-free 免模型类 RL 算法的预测和控制 【ε 贪心策略 优化的证明】
其一是智能体在测试的时候直接用模型预测的动作输出就行,即在训练中是采样动作(带探索),测试中就是预测动作,其二是训练过程中不需要更新策略,因为已经收敛了。时序差分: 每走一步更新一次 Q 表格, 用下一个状态的 Q 值 来 更新当前状态 的 Q 值。同策略:学习的策略 和 与环境交互的策略 是同一个。时序差分 优势: 低方差, 能够在线学习, 能够从不完整的序列中学习。同策略 VS 异策略: 生成样本的策略 和 参数更新的策略 是否相同。Q 学习, 异策略, 优化策略 没有用到 行为策略的数据。原创 2024-06-22 21:18:08 · 444 阅读 · 0 评论 -
# [0619] Task01 绪论、马尔可夫过程、动态规划 【OpenAI_Gym 库】
最新版PDF下载地址:https://github.com/datawhalechina/easy-rl/releases链接: https://pan.baidu.com/s/1isqQnpVRWbb3yh83Vs0kbw 提取码: us6a参考链接 2:https://datawhalechina.github.io/joyrl-book/——————5、深度强化学习基础 ⭐️开源内容:https://linklearner.com/learn/summary/11。原创 2024-06-19 23:45:58 · 1084 阅读 · 0 评论