- 博客(1)
- 收藏
- 关注
原创 【百度飞桨paddlepaddle】强化学习7日打卡营
文章目录写在前面day1day2 基于表格的方法求解RLday3 基于神经网络的方法求解RL值函数近似DQN两大创新点Experience Replay: 解决样本的相关性和利用效率的问题Fixed Q Target: 解决算法训练不稳定的问题DQN流程图day4 基于策略梯度(Policy Gradient)求解RLday5 连续动作空间上求解DDPG(Deep Deterministic Policy Gradient)写在前面强化学习是一门来源于心理学的学科,每个人都是过去经验的总和你过去的经验
2020-06-26 19:23:11 403
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人