QLearning算法理解
Q_learning 是一种model_free类的强化学习的算法,即从环境中得到反馈进而来学习的.生动形象的解释参考这个视频;记录看完莫烦讲解的Q_learning算法后的个人理解:注释:alpha是学习率, 来决定这次的误差有多少是要被学习的, alpha是一个小于1 的数.gamma 是对未来 reward 的衰减值.Q(s2)是下一次策略执行后的奖赏Q(s, a)是更新该步的奖赏r是指到达是s2的奖赏.从在s1状态下执行a所获得的reword.epsilon greedy 是用在决
原创
2020-05-12 16:18:18 ·
2079 阅读 ·
0 评论