强化学习
追光者2020
没有实力的愤怒毫无意义。
展开
-
强化学习之DDPG
1)出发点是什么?之前的几种算法是基于离散动作的,现实生活中会存在连续动作,比如方向盘的角度等等。DDPG是为了解决连续动作应用而生。与上一个博客不同的是激活函数的选择是tanh,将动作缩放到一定的区间,这样来表示连续动作。2)什么是DDPG?一张图很清晰啦。使用到了上一个博客中的时序差分。在DDPG中,输入的动作需要由策略网络产生,这样完整的网络称为演员-评论家模式。评论家接收到的是环境的反馈,而动作接收到的是评论家的反馈。优化需要优化两个网络:整体结构:存在4个网络,Q网络以原创 2020-06-22 17:33:11 · 1269 阅读 · 0 评论 -
强化学习之DQN和policy gradient
1)什么是DQN?解决了什么问题?出发点是什么?2)什么是,主要解决什么问题?3)异同点4)代码浅析原创 2020-06-22 16:46:56 · 2025 阅读 · 0 评论 -
强化学习之Q-learning和Sarsa
1)什么是强化学习? 简称RL,理解这一概念结合现实生活中的情况不难理解。这一概念抽象出来分为状态,动作以及奖励。以迷宫为例,状态指的是我当前所处的位置,动作指的是我可以采用何种方式进行移动,当然有的状态中并不能包含所有的动作,因为边界的限制以及各种障碍的限制。 形象一点就是给你安排了一个老师,他只是告诉你具体的分数,你需要根据这些分数做一定的抉择。2)强化学习的分类 在线学习与离线学习:以人玩耍为例,前者是变更新边玩,本人在场,后者呢,是本人可以不在场,看着别人玩耍。代码中体现的话就是动作的原创 2020-06-17 19:30:56 · 827 阅读 · 0 评论