强化学习
棉花糖灬
我就是我,是颜色不一样的烟火。
天空海阔,要做最坚强的泡沫。
我喜欢我,让蔷薇开出一种结果。
孤独的沙漠里,一样盛放的赤裸裸!
展开
-
【论文笔记】基于DQN和知识迁移的订单分配模型
本文是论文《Deep Reinforcement Learning with Knowledge Transfer for Online Rides Order Dispatching》的阅读笔记。一、介绍文章把订单分配问题建模成一个 MDP,并且提出了基于 DQN 的解决策略,为了增强的模型的适应性和效率,文章还提出了一种相关特征渐进迁移(Correlated Feature Progressive Transfer)的方法,并证明了先从源城市学习到分配策略,然后再将其迁移到目标城市或者同一个城市的原创 2020-05-18 18:33:49 · 1304 阅读 · 2 评论 -
【论文笔记】基于组合优化的订单分配模型
本文是论文《A Taxi Order Dispatch Model based On Combinatorial Optimization》的阅读笔记。一、摘要传统的订单分配系统都是最大化每个订单的司机接受率,通常会对于每个订单寻找一个最近的司机,这导致了较低的全局成功率,并且订单分配的时间较长。文章提出了一个目的地预测模型,可以在用户一打开APP的时候就对用户可能去的目的地进行预测,本文提出的模型不仅在全局成功率,而且在用户等待时间、接车距离等方面都获得了很大的提升。在本文提出的模型中,会把一个订原创 2020-05-18 18:30:55 · 2284 阅读 · 1 评论 -
强化学习(9):TRPO、PPO以及DPPO算法
本文主要讲解有关 TRPO算法、PPO 算法、PPO2算法以及 DPPO 算法的相关内容。一、PPO 算法PPO(Proximal Policy Optimization) 是一种解决 PG 算法中学习率不好确定的问题的算法,因为如果学习率过大,则学出来的策略不易收敛, 反之,如果学习率太小,则会花费较长的时间。PPO 算法利用新策略和旧策略的比例,从而限制了新策略的更新幅度,让 PG 算...原创 2019-12-22 09:11:27 · 14644 阅读 · 2 评论 -
强化学习(8):Asynchronous Advantage Actor-Critic(A3C)算法
本文主要讲解有关 A3C 算法的相关内容。一、A3C 算法直接引用莫烦老师的话来介绍 A3C 算法:Google DeepMind 提出的一种解决 Actor-Critic 不收敛问题的算法。它会创建多个并行的环境,让多个拥有副结构的 agent 同时在这些并行环境上更新主结构中的参数。并行中的 agent 们互不干扰,而主结构的参数更新受到副结构提交更新的不连续性干扰,所以更新的相关性被降...原创 2019-12-22 09:10:18 · 1349 阅读 · 0 评论 -
强化学习(7):深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)
本文主要讲解有关 DDPG 算法的有关内容。一、DDPG 算法DDPG 是 Deep Deterministic Policy Gradient 的缩写,其中深度 (Deep) 代表 DQN;确定性(Deterministic)是指不再先生成各个动作的概率然后再选择概率最高的动作,而是直接输出一个确定性的动作;Policy Gradient 就不用解释了吧。因为在 Actor-Critic...原创 2019-12-22 09:09:23 · 4231 阅读 · 0 评论 -
强化学习(6):Actor-Critic(演员评论家)算法
本文主要讲解有关 Actor-Critic 算法的有关知识。一、Actor Critic 算法Actor-Critic 算法合并了以策略为基础的 Policy Gradient和以值为基础的 Q-Learning 两类强化学习算法,该算法中将前者当作 Actor,用来基于概率选择行为。将后者当作 Critic,用来评判 Actor 的行为得分,然后 Actor 又会根据 Critic 的评分...原创 2019-12-22 09:08:05 · 7957 阅读 · 0 评论 -
强化学习(5):策略梯度(Policy Gradient, PG)算法
最近自己会把自己个人博客中的文章陆陆续续的复制到CSDN上来,欢迎大家关注我的 个人博客,以及我的github。本文主要讲解有关 Policy Gradient(PG)算法的相关内容。之前提到的 Sarsa、Q-Learning 和 DQN 算法都是基于价值的方法,也就是先计算每个状态对应的动作的 Q 值,再选择 Q 值最大的动作执行。而 Policy Gradient 是一种更加直接的方式...原创 2019-11-21 13:35:16 · 8038 阅读 · 1 评论 -
强化学习(4):Double DQN、Prioritized Experience Replay DQN和Dueling DQN
最近自己会把自己个人博客中的文章陆陆续续的复制到CSDN上来,欢迎大家关注我的 个人博客,以及我的github。本文主要讲解有关Double DQN算法、Prioritized Experience Replay DQN 算法和 Dueling DQN 算法的相关内容。对于 DQN 算法的改进主要有三种——Double DQN算法、Prioritized Experience Replay ...原创 2019-11-21 13:33:13 · 1154 阅读 · 2 评论 -
强化学习(3):Deep Q Network(DQN)算法
最近自己会把自己个人博客中的文章陆陆续续的复制到CSDN上来,欢迎大家关注我的 个人博客,以及我的github。本文主要讲解有关 Deep Q Network(DQN)算法的相关内容。1. DQN 的基本思想传统的 Q-Learning 算法当 Q 表过大时不仅难以存储而且难以搜索,并且当状态是连续的话,用 Q 表存储是不现实的,这时可以用一个函数来拟合 Q 表,所以提出了神经网络和 Q-...原创 2019-11-21 13:31:17 · 2590 阅读 · 0 评论 -
强化学习(2):Sarsa 算法及 Sarsa(lambda) 算法
最近自己会把自己个人博客中的文章陆陆续续的复制到CSDN上来,欢迎大家关注我的 个人博客,以及我的github。本文主要讲解 Sarsa 算法以及 Sarsa(λ\lambdaλ) 算法的相关内容,同时还会分别附上一个莫烦大神写的例子。一、Sarsa 算法Sarsa 算法与 Q-Learning 算法相似,也是利用 Q 表来选择动作,唯一不同的是两者 Q 表的更新策略不同。该算法由于更新一...原创 2019-11-21 13:30:00 · 6451 阅读 · 0 评论 -
强化学习(1):Q-Learning 算法
最近自己会把自己个人博客中的文章陆陆续续的复制到CSDN上来,欢迎大家关注我的 个人博客,以及我的github。本文主要讲解有关 Q-Learning 算法的内容,主要包括 on-policy 和 off-policy 的概念、Q-Learning 算法的基本思想和算法流程,最后还会讲解一个莫烦大神的例子。1. on-policy 和 off-policyon-policy(同策略): 智...原创 2019-11-21 13:28:42 · 1661 阅读 · 0 评论 -
强化学习(0):强化学习的基本概念与马尔科夫决策过程
最近自己会把自己个人博客中的文章陆陆续续的复制到CSDN上来,欢迎大家关注我的 个人博客,以及我的github。本文主要讲解有关强化学习的基本概念以及马尔科夫决策过程的相关内容。关于强化学习的教程,我见过多种版本,每个老师所讲的内容提纲也有所差异,自己还没有完全搞清楚整个知识体系框架,所以下面先讲哪些共有的部分。一、强化学习概述机器学习可以分为监督学习、无监督学习和强化学习(Reinfo...原创 2019-11-20 11:19:17 · 1083 阅读 · 1 评论 -
强化学习番外篇之 OpenAI-gym 环境的介绍和使用
最近自己会把自己个人博客中的文章陆陆续续的复制到CSDN上来,欢迎大家关注我的 个人博客,以及我的github。本文主要讲解有关 OpenAI gym 中怎么查看每个环境是做什么的,以及状态和动作有哪些可取的值,奖励值是什么样的。然后给出一个完整的代码,最后再说明一下 gym 中的 done 标志的含义。gym 是 OpenAI 针对强化学习推出的诸多环境的集合,我们可以直接在这些环境上使用...原创 2019-11-20 11:15:02 · 6198 阅读 · 1 评论