强化学习
文章平均质量分 54
涉猎下强化学习
wydxry
红叶经霜而赤,腊梅沐雪而馨!
展开
-
强化学习实战-使用Q-learning算法解决迷宫问题
Q-learning简介Q-learning也是采用Q表格的方式存储Q值(状态动作价值),决策部分与Sarsa是一样的,采用ε-greedy方式增加探索。Q-learning跟Sarsa不一样的地方是更新Q表格的方式。Sarsa是on-policy的更新方式,先做出动作再更新。Q-learning是off-policy的更新方式,更新learn()时无需获取下一步实际做出的动作next_action,并假设下一步动作是取最大Q值的动作。Q-learning的更新公式:迷宫问题如下图所示,原创 2021-08-13 17:21:09 · 2682 阅读 · 0 评论 -
强化学习实战-使用Q-learning算法解决悬崖问题
Q-learning简介Q-learning也是采用Q表格的方式存储Q值(状态动作价值),决策部分与Sarsa是一样的,采用ε-greedy方式增加探索。Q-learning跟Sarsa不一样的地方是更新Q表格的方式。Sarsa是on-policy的更新方式,先做出动作再更新。Q-learning是off-policy的更新方式,更新learn()时无需获取下一步实际做出的动作next_action,并假设下一步动作是取最大Q值的动作。Q-learning的更新公式:悬崖问题找到绕过悬崖原创 2021-08-13 16:56:42 · 1159 阅读 · 3 评论 -
强化学习实战-使用Sarsa算法解决悬崖问题
Sarsa 简介Sarsa全称是state-action-reward-state’-action’,目的是学习特定的state下,特定action的价值Q,最终建立和优化一个Q表格,以state为行,action为列,根据与环境交互得到的reward来更新Q表格,更新公式为:Sarsa在训练中为了更好的探索环境,采用ε-greedy方式来训练,有一定概率随机选择动作输出。悬崖问题找到绕过悬崖通往终端的最短路径(快速到达目的地),每走一步都有-1的惩罚,掉进悬崖会有-100的惩罚(并被拖回出发点)原创 2021-08-13 16:10:19 · 1647 阅读 · 0 评论 -
强化学习实战-使用Sarsa算法解决迷宫问题
Sarsa 简介Sarsa全称是state-action-reward-state’-action’,目的是学习特定的state下,特定action的价值Q,最终建立和优化一个Q表格,以state为行,action为列,根据与环境交互得到的reward来更新Q表格,更新公式为:Sarsa在训练中为了更好的探索环境,采用ε-greedy方式来训练,有一定概率随机选择动作输出。迷宫问题如下图所示,迷宫问题是16宫格寻迹问题,需要在最短时间内从左上角起点到达右下角终点(黑色部分为障碍处不可走)。源程原创 2021-08-13 11:39:05 · 905 阅读 · 0 评论 -
强化学习笔记(二)
马尔可夫性质在一个时序过程中,如果t+1时的状态仅取决于t时的状态St,而与t时之前的任何状态都无关,则认为t时的状态St具有马尔可夫性质(Markov Property)。若过程中的每一个状态都具有马尔可夫性质,则这个过程就具备马尔可夫性质。采样从符合马尔可夫过程给定的状态转移概率矩阵生成一个状态序列的过程称为采样(Sampling)。状态序列采样将得到一系列的状态转换过程,称为状态序列(Episode,或称为情节、片段)。当状态序列的最后一个状态是终止状态时,该状态序列称为完整的状态序列(Co原创 2021-01-26 18:48:20 · 217 阅读 · 0 评论 -
强化学习笔记(一)
强化学习分类第一种分类方式:(1)仅基于价值函数:这样的个体有对状态价值的估计函数,但是没有直接的策略函数,策略函数由价值函数间接得到。(2)仅直接基于策略:在这样的个体中,行为直接由策略函数产生,个体并不维护一个对各状态价值的估计函数。(3)演员-评判家(Actor-Critic)类型:这样的个体既有价值函数也有策略函数,两者相互结合解决问题。第二种分类方式:(1)不基于模型的个体:这类个体并不试图了解环境如何工作,而仅聚焦于价值和策略函数,或者二者之一。(2)基于模型的个体:个体尝试建立一原创 2021-01-24 20:44:01 · 135 阅读 · 0 评论