- 博客(1)
- 收藏
- 关注
原创 百度飞桨深度学习学院强化学习7日打卡营 学习笔记
part 1基于表格型方法求解RL 首先要知道马尔可夫决策过程四元组 简单的来说就是在不同的状态s下选择不同的动作a会得到不同的奖励r。 状态转移概率解释起来就是在情况下选择动作转移到状态,并获得奖励的概率。 都是不是所有的时候,环境我们都是已知的,这时候就需要一步步的去探索。 :表示状态动作值:表示状态的好坏 由状态值和动作值和Q值就可以组成Q表格 Q表格:指导每一个step的动作选择。 目标导向:未来的总...
2020-06-26 11:10:49 352
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人