增强学习
zhaoying9105
这个作者很懒,什么都没留下…
展开
-
强化学习中同步动态规划和异步动态规划 Synchronous and Asynchronous dynamic programminging
同步动态规划是基础:一次性更新所有的S的value。异步动态规划分集中常见类型: in-place 动态规划: 不对上一周期的value进行备份,直接使用这一周期的value(当然,本周期的value本来就是上一周期优化的结果,只是少了备份这一步,节省了一些内存)Prioritised Sweeping:计算优化目标值和现实值之差,对多个S计算后排成一列,差值大的在前,依次优化对应的s的原创 2017-06-19 15:21:58 · 3491 阅读 · 0 评论 -
强化学习中的backups
在强化学习中可能会遇到backups,意思就是备份,在本周期中进行评估或者优化的时候会用到上一个周期的value数据,或者策略数据,这些数据在上一个周期结束时都被备份起来了。backups有两种方式:Full-Width Backups: 全部备份,用于动态规划,实际上也不算是备份的意思,它需要的model,也就是状态转移概率函数和reward函数。Sample Backups: 采样备份,这个原创 2017-06-19 15:39:31 · 1649 阅读 · 0 评论 -
强化学习中的蒙特卡洛(monte-carlo)算法和时序差分算法
【未完成】蒙特卡洛特点周期性更新:一整个周期结束了(到达了终点)才回进行一个更新(更新所有经历过的state的value)所以是无偏估计First-Visit:第一个周期经历了 某个状态s,第二个周期也第一次经历了这个状态s,待第二个周期结束之后,计算出了第二个周期s对应的G值(G = 这一步的reward + 打折系数 ^ 1 * 下一步的reward + 打折系数 ^ 2 * 下下步的rew原创 2017-06-12 09:52:55 · 6105 阅读 · 0 评论 -
深度强化学习中的DQN系列算法
DQN是考虑到维度灾难,在q-learning算法的价值函数近似Value Function Approximation基础上修改的。主要是对Q(s,a,w)进行修改,s可能是非常大的,比如输入一个图像,a可能是很小的,比如玩游戏时候几个操作键。这种情况下引入神经网络,可以把Q(s,a,w)变成a = Q(s,w),输出的是a大小的向量,每个元素表示每个动作a下的Q(s,a)值。原创 2017-06-20 11:11:24 · 3753 阅读 · 0 评论 -
深度学习中的sarsa(lambda)和 Q(lambda)算法
这个没什么好说的,因为在莫烦python中出现了,可能会引起一些疑惑,普通的sarsa 和q-learning就是普通的时序差分(TD)的实现,sarsa(lambda) 和 Q(lambda)算法 就是TD(lambda)的实现。原创 2017-06-20 14:13:09 · 2755 阅读 · 0 评论 -
增强学习的初步理解- 周志华《机器学习》
马尔可夫决策过程四元组[X, A, P, R]X : 状态的集合; A:动作的集合; P:状态转移函数,在给定状态x 和动作a 的情况下,转移到其他各个状态的概率; R:转移到下个状态后获得的奖赏;另有策略函数策略函数是在给定的状态x下,决定采取什么样的动作a; 注意:1、策略函数和状态转移函数是完全不一样的,策略函数是给定x选择a,状态函数是给定x和a,选定下一个状态,一般来说,策略函原创 2017-06-09 11:22:42 · 432 阅读 · 0 评论 -
深度学习中sarsa算法和Q-learning算法的区别
sarsa 和 Q-learning都是时序差分下对动作价值函数优化的单步方法,算法基本上一样,只有一点: 为了更新St的动作价值函数,需要St+1的动作价值函数,St+1具体是什么St+1是由上个episode决定了,但是St+1对应的action由什么决定呢?sarsa的处理方式是episinon + greedy,和St选择aciton采取的方法是一样的,称为 on-policy; Q-l原创 2017-06-12 10:07:01 · 9158 阅读 · 1 评论 -
增强学习中mode_Free 的意思
深度学习中模型用数学来表示: S_,R= Model(S,A)model可以是概率性的,也可以是确定性。 现行的大多数算法都是model_free的,因为model不容易取的,model_free不是不和model打交道,相反,必须和model交互,交互的方式也是这个公式: S_,R= Model(S,A) 关键在于,agent只能把S,A发送给环境(environment)原创 2017-06-12 15:11:20 · 802 阅读 · 0 评论 -
Dyna - 结合模型学习和直接强化学习
model_free的算法可以和模型学习结合。 方法是向环境(environment)传递了S,A后获得反馈S_,R,保存这个关系,记为 S_,R = Model(S, A),如此多次就学习了model的一部分,就像是有了对外界环境的想象,如此就可以在不接触外界环境的情况下进行学习。Q-learning和模型学习结合就是Tabular Dyna-Q方法:Initialize Q(s,a)Q(s,原创 2017-06-12 15:24:52 · 1573 阅读 · 0 评论