![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 97
Mr.郑先生_
越是不可能,越要创造无限可能
展开
-
从代码到论文理解并复现MADDPG算法(基于飞桨的强化学习套件PARL)
MADDPG算法是强化学习的进阶算法,在读对应论文Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments的过程中,往往会遇到很多不是很好理解的数学公式,这篇文章旨在帮助读者翻过数学这座大山,从PARL的代码理解MADDPG算法。把MADDPG拆分成多个算法什么是多智能体?有哪些环境?从PARL的代码解读MADDPG复现“老鹰捉小鸡”的游戏环境回归论文1. 把MADDPG拆分成多个算法MADDPG的全称是原创 2020-07-19 09:56:37 · 27341 阅读 · 17 评论 -
从零实践强化学习之连续动作空间上求解RL(PARL)
回顾这五节课的内容,其实可以分成四大内容:离散状态空间连续状态空间离散动作空间连续状态空间最后一节课的主要内容就是学习用强化学习来求解连续状态空间的问题连续动作空间连续动作和离散动作是一个相对的概念,通过回顾离散动作来学习什么是连续动作连续动作 VS 离散动作前面几节课接触到的,比如倒立摆、小乌龟还有雅达利的乒乓球,动作的步长都已经提前给定的,比如按一下就走一个单位长度但是现实生活中,比如开车时方向盘的角度,或者是无人机的电压都是连续的,也就是说,输出的动作是不可数的,就好像倒立摆可以原创 2020-06-22 16:15:31 · 3599 阅读 · 0 评论 -
使用PARL实现基于DQN算法的AI Flappy-Bird
用PARL的官方 DQN 算法,玩Flappy-Bird的案例其实在2019年4月份就有了,所以这里准确说,应该是复现。但是如果用现在1.3.1版本的PARL框架运行,会有一些版本不兼容的问题,而且也不能直接在AI Studio里运行,所以我借着这个机会,完善一下,并且巩固一下最近学的内容。我已在AI Studio公开这个项目:https://aistudio.baidu.com/aistudio/projectdetail/580622首先在本地试着把这个项目项目跑起来在本地可视化地展示Flap原创 2020-06-22 00:14:22 · 1657 阅读 · 2 评论 -
从零实践强化学习之基于策略梯度求解RL(PARL)
这部分的内容,我个人感觉主要是数学公式,稍微有一点难,不过没关系,我们从代码出发,再去理解数学公式之前我们学习的是用函数去拟合Q-funtion,然后再根据Q值选择最佳策略,这节课讲的是直接拟合策略的方法,会用到策略梯度的方法在第一节课的时候,科老师就提到了智能体agent的两种学习方案:随机策略的方案 与 策略梯度的方案随机策略与策略梯度在强化学习中,有两大类方法,一种基于值(Value-based),一种基于策略(Policy-based)Value-based的算法的典型代表为Q-l原创 2020-06-20 13:36:56 · 1960 阅读 · 2 评论 -
从零实践强化学习之基于神经网络方法求解RL(PARL)
前一节课讲了表格法,这一节课主要讲用神经网络的方法来求解,这里科老师也把神经网络讲的很透彻,让我对神经网络有了新的认识这是上节课的悬崖问题:这些宫格都是可数的,用一个Q表格就能装下来可是在实际生活中,有很多问题都是数量庞大,甚至不可数的:这些状态肯定是不能被Q表格装下的,这时就要用到值函数的近似值函数近似(函数逼近)值函数就是Q函数,Q表格的作用就是可以根据输入状态的动作来查表并输出Q值表格方法的缺点:表格可能占用极大内存当表格极大时,查表效率低下那么实际上,我们就可以用带参数的Q原创 2020-06-19 16:37:34 · 1426 阅读 · 0 评论 -
从零实践强化学习之基于表格型方法求解RL(PARL)
第二天的课程主要在第一天的基础上开始的,科老师用了很多例子,把许多很难理解的内容讲的非常明白,那我在这里也整理一下,并结合我自己的理解,跟各位分享。首先是强化学习的四元组强化学习MDP四元组< S, A, P, R >这是一个跟时间相关的序列决策问题:在 t-1 时刻,我看到了熊对我招手,那么我下意识的动作即输出的动作是马上逃跑那么在t时刻,熊看到我在跑,就认为发现了猎物,便会发动攻击,这时如果选择装死那么在 t+1 时刻,熊可能会选择离开,这时我们再选择逃跑,那么大概率就能逃跑成原创 2020-06-19 12:41:50 · 1148 阅读 · 8 评论 -
从零实践强化学习之RL初印象(GYM+PARL)
昨天听了曾两度夺得NeurIPS强化学习赛事冠军的飞桨强化学习PARL团队核心成员科老师的课程,不得不说,满满的干货,于是今天打算再看一遍回放,并好好地做一下笔记。在学习强化学习之前,我们先思考一下,我们想追求的智能是什么?人类追求的智能是什么?对人类来说,人的智能可以分为两部分:一小部分是天生遗传的绝大部分是要依靠我们出生之后的努力学习后天的学习一般分两种:一种是有前人的经验了,我们直接模仿,依葫芦画瓢。另一种是没有任何的经验,我们只能在摸索中去前进和环境交互、探索举个例子,一个原创 2020-06-17 14:11:59 · 1574 阅读 · 0 评论