强化学习
文章平均质量分 80
wweweiweiweiwei
这个作者很懒,什么都没留下…
展开
-
强化学习(六):Shared Experience Actor-Critic for Multi-Agent Reinforcement Learning论文解读,附源码
强化学习(六):Shared Experience Actor-Critic for Multi-Agent Reinforcement Learning论文解读,附源码链接:https://pan.baidu.com/s/1EhDJxQ0FATflAVF8NS2hEA提取码:8888作用采用的框架为Pytorch,具体需要的第三方库可以在压缩包中requirement.txt文档查看。下述为我对论文的理解,对摘要以及正文的内容进行了简化,并且主要解读了Multi-Robot Warehouse环境,原创 2021-09-07 17:07:45 · 1336 阅读 · 3 评论 -
强化学习(五):Actor-Critic、DDPG等算法
强化学习(五):Actor-Critic、DDPG等算法详细介绍以及算法流程、算法代码参考百度网盘,代码来源于莫烦大佬,采用的框架为Tensorflow。链接:https://pan.baidu.com/s/13jPAdwweMZHZTEwR8-dSoQ提取码:8888原创 2021-09-07 15:22:47 · 307 阅读 · 1 评论 -
强化学习(四):Prioritized Replay DQN、Dueling DQN,附源码解读
强化学习(四):Prioritized Replay DQN、Dueling DQN,附源码解读本次将带来另外两个DQN算法的变种,Prioritized Replay DQN和Dueling DQN;1 Prioritized Replay DQN之前的DQN算法中在经验回访中利用的是均匀分布采样,而这种方式看上去并不高效,对于智能体而言,这些数据的重要程度并不一样,因此提出优先回放(Prioritized Replay)的方法。优先回放的基本思想就是打破均匀采样,赋予学习效率高的样本以更大的采样权原创 2021-08-03 21:58:29 · 1191 阅读 · 0 评论 -
强化学习(三):DQN、Nature DQN、Double DQN,附源码解读
强化学习(三):DQN、Nature DQN、Double DQN,附源码解读这不最近在学莫烦的强化学习嘛,有一点好处就是他讲的课虽然有一些一知半解,但是在网上再查查博客结合一下他的代码就能有比较清晰的理解了。这篇文章就介绍一下我对DQN以及其改进算法的理解和莫烦python代码的部分解读。1 DQN传统的强化学习存在当状态过多维度爆炸的问题,如果全用表格来存储它们,恐怕计算机内存会不够,而且每次在这么大的表格中搜索对应的状态也是一件很耗时的事,采用机器学习中的神经网络进行替代能够很好解决这个问题。原创 2021-08-02 11:08:45 · 2804 阅读 · 3 评论 -
强化学习(二):SARSA,附代码改写
强化学习(二):SARSA,附代码改写本篇文章带来第二个经典强化学习算法:SARSA。SARSA这个名字其实是State、Action、Reward、State_、Action_的组合,因为它在计算Q值的时候利用到了这五个值,其中State_是下一个时刻的状态,Action是下一个时刻的动作。相比于Q-learning的不同在于SARSA的Q值计算用到了下一时刻的动作,而Q-learning没有,Q-learning只用到了SARS,前四个。SARSA与Q-learning很相似,也有不同,它们的不同原创 2021-07-28 20:37:51 · 560 阅读 · 0 评论 -
强化学习(一):Q-learning,附源码解读
强化学习(一):Q-learning,附源码解读Q-learning强化学习与有监督学习和无监督学习为机器学习的三个方向,它主要解决的是决策问题,尤其是连续决策问题。插入一幅强化学习框图,其中学习主体(Agent):强化学习体系中的“学习者”;环境(Environment):主体的行为再环境中产生、环境对主体产生影响;状态(State):环境反馈给主体的状态的集合;奖赏(Reward):环境对主体行为的反馈的集合;行为(Action):主体在环境中的行动的集合。强化学习根据不同条件有不同的原创 2021-07-27 16:44:25 · 2468 阅读 · 1 评论