百度强化学习7日课程笔记

百度强化学习7日打卡营课程笔记

上周参加了百度的强化学习7日打卡营,科老师的讲解非常有条理,且将代码与知识点结合起来,使得不擅长公式推导的小白得以了解强化学习领域的入门知识以及百度的PaddlePaddle框架,并且有机会自己尝试调试简单的强化学习程序。
现将部分课程笔记整理如下,共5节课。
第一课-强化学习(RL)概况
在这里插入图片描述
第二课-基于表格型方法求解RL
应用场景:离散状态+离散动作,确定性策略
在这里插入图片描述
On-policy → SARSA(更新值函数时,下一步策略采用实际策略输出的action)
Off-policy → Q-learning(更新值函数时,下一步策略采用当前Q函数下理论最优的action)
在这里插入图片描述
第三课-基于神经网络求解RL
应用场景:连续状态+离散动作,确定性策略
相比表格型方法的改进:适用于连续状态或者状态空间较大的场景,对于未训练的状态泛化较好
在这里插入图片描述
DQN算法
在这里插入图片描述
第四课-基于策略梯度求解RL
应用场景:连续状态+离散动作(策略参数化),随机策略
相比值函数方法的改进:值函数方法无法处理随机策略
在这里插入图片描述
Reinforce算法
在这里插入图片描述
第五课-连续动作空间上求解RL
应用场景:连续状态+连续动作,确定性策略
相比值函数方法的改进:适用于连续动作空间
在这里插入图片描述
DDPG算法
在这里插入图片描述
以上是百度强化学习课程的笔记。

附上以前的笔记,虽然字很丑。
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值