百度强化学习7日打卡营课程笔记
上周参加了百度的强化学习7日打卡营,科老师的讲解非常有条理,且将代码与知识点结合起来,使得不擅长公式推导的小白得以了解强化学习领域的入门知识以及百度的PaddlePaddle框架,并且有机会自己尝试调试简单的强化学习程序。
现将部分课程笔记整理如下,共5节课。
第一课-强化学习(RL)概况
第二课-基于表格型方法求解RL
应用场景:离散状态+离散动作,确定性策略
On-policy → SARSA(更新值函数时,下一步策略采用实际策略输出的action)
Off-policy → Q-learning(更新值函数时,下一步策略采用当前Q函数下理论最优的action)
第三课-基于神经网络求解RL
应用场景:连续状态+离散动作,确定性策略
相比表格型方法的改进:适用于连续状态或者状态空间较大的场景,对于未训练的状态泛化较好
DQN算法
第四课-基于策略梯度求解RL
应用场景:连续状态+离散动作(策略参数化),随机策略
相比值函数方法的改进:值函数方法无法处理随机策略
Reinforce算法
第五课-连续动作空间上求解RL
应用场景:连续状态+连续动作,确定性策略
相比值函数方法的改进:适用于连续动作空间
DDPG算法
以上是百度强化学习课程的笔记。
附上以前的笔记,虽然字很丑。