自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 决策树算法中:根据信息增益选取下一个分类特征(python代码-算法面试)

决策树基于信息增益选择特征的python实现

2022-09-01 17:09:24 428 1

原创 逻辑斯蒂回归(逻辑回归)Python简单实现(算法笔试)

算法岗位,可能会让你简单写这个

2022-09-01 17:04:34 640

原创 window环境,pycharm中执行.sh文件

背景在运行神经网络相关的实验的时候,通常要跑很多次实验,而每次实验运行时间很久,每运行完一次就需要手动再运行下一次实验。(如果半夜运行完一次,那机器就空着了很难受)。.sh脚本可以自动的运行多次实验。例如下面这个.sh脚本,可以连续执行10次不同随机种子seed的实验。而不需要人为中途设置,我们只需要在代码中添加每次实验的参数信息就行了。#!/bin/bash# Script to reproduce resultsfor ((i=0;i<10;i+=1))do python ma

2021-07-02 10:18:50 20797 21

原创 genetic soft updates for policy evolution in deep reinforcement learning

论文链接:论文传送门介绍这篇论文是也是强化学习和进化算法的结合。其中强化学习部分可以采用任何强化学习算法(value-based(DQN)、policy-gradient(PPO、TRPO)、ac(DDPG、TD3、SAC)),进化算法部分采用的是进化策略(ES)。本文的优势就在于可以采用任意的强化学习算法进行结合,而以前的ERL、PDERL、CEM-ERL等都在才用ac以外方法时,效果不是很好。背景本文的优势有:减少开销(定期生成种群评估,而不需要每轮评估)可以和任何强化学习方法结合即便

2021-04-16 16:29:46 475 1

原创 Collaborative Evolutionary Reinforcement Learning

论文链接:论文传送门官方pytorch代码实现:代码传送门介绍这篇论文之前发的ERL论文的改进版本(ERL介绍链接)这篇文章提出的核心要点可以总结为两个:1.不同的策略都共享同一经验池的经验,提高采样效率2.多个未来折扣率不同的Critic对Actor策略进行指导,从而提供更多样化探索,能更好的在策略空间进行探索原理1.概念介绍为了更好的理解CERL框架,我们可以回想一下当初讲ERL的时候,ERL是进化算法和强化学习的结合,其中强化学习部分采用的是DDPG,也就是一对actor网络和一对cr

2021-03-19 17:46:11 646

原创 CEM-RL

论文:传送门介绍之前讲了ERL,ERL是进化算法和off-policy强化学习算法的结合。而这篇CEM-RL也是进化算法和off-policy强化学习算法的结合。ERL和CEM-RL的主要区别在于两者进化算法的区别。先说一下,进化算法分四类:1、进化策略 2、进化规划 3、遗传算法 4、遗传规划有兴趣的可以了解一下,但是目前据我了解,在强化学习当中应用比较多的是进化策略和遗传算法。至于进化规划和遗传规划似乎可以暂时忽略。回到正题,ERL采用的进化算法是遗传算法。而CEM-RL采用的进化算法是进化策

2021-03-16 17:30:58 1137

原创 分布式优先级经验回放(Distributed Prioritized Experience Replay)

论文链接:我是传送门背景传统对经验池进行均匀采用很明显是不合适的,因为有的经验是更加有帮助的,因此,提出了优先级经验回放(对经验设置优先级,按优先级大小采样)。本文对优先级经验回放采用分布式的设置,通过分布式获取多样性经验,达到更好的效果。传统的分布式强化学习是分布式求解梯度,并返回梯度信息。例如A3C,结构图如下,其中WORKERS给GLOBAL NETWORK提供的是梯度,而本文的想法是WORKERS给GLOBAL NETWORK提供经验,因此WORKERS不需要提供梯度,也就不需要反向传播求解梯

2021-03-09 17:00:30 2682

原创 Proximal Distilled Evolutionary Reinforcement Learning

论文:传送门介绍上一篇讲的进化强化学习ERL(evolutionary reinforcement learning)是简单的将进化算法和强化学习算法进行结合。而本文则是对这种结合提出了几个改进,并将改进方法命名为Proximal Distilled Evolutionary Reinforcement Learning背景在传统的进化算法与强化学习算法结合后,进化算法当中的种群的个体是神经网络。因此,我们需要对神经网络进行交叉和变异。而本文认为传统的n点交叉和高斯变异着两个遗传算子不使用于神经网

2021-03-08 12:15:24 708

原创 ERL(evolutionary reinforcement learning)

论文:Evolution-Guided Policy Gradient in Reinforcement Learning原文链接:传送门1.介绍现在各种方法的结合成为了很好的研究方向。之前我发的“Learning Off-Policy with Online Planning”就是有模型和无模型强化学习方法的结合。本文则是进化算法和强化学习的结合。值得注意的是,之前已经有人将进化算法作为解决强化学习问题的一种方法了(论文),但是之前并没有与原来的强化学习方法进行结合。打个形象的比方:假如之前解决强

2021-03-08 11:29:52 2464 5

原创 强化学习之确定性策略网络和随机策略网络

强化学习当中策略可以分为随机策略和确定性策略两类。1 确定性策略确定性策略是输入一个状态s,策略会给出一个确定的动作a,可以用以下形式表示。u表示的是确定性策略。t时刻的状态写作st。t时刻在st状态下采取的动作为at。实现时,只需要建立一个神经网络,输入状态,输出一个确定的动作就行。使用了确定性策略的算法有:DDPG、TD3。DQN中的目标策略一般也是贪婪的确定性策略。2 随机策略随机策略是输入一个状态s,输出的是动作分布。随机策略通常用π表示。对于st条件下,每一个动作都是以概率被选取

2020-12-27 18:18:49 4029 1

原创 动态规划、蒙特卡洛、时序差分、n步bootstrap方法小总结

所有的方法都遵循广义策略迭代(即,广义上的策略评估和策略提升过程)方法是否bootstrap是否基于模型实现方式动态规划是是1.策略迭代2.价值迭代蒙特卡洛否否1.蒙特卡洛ES 2.on-policy实现 3.off-policy实现时序差分是否1.on-policy实现(sarsa) 2.off-policy实现(q-learning)n步bootstrap是否1.on-policy实现(n步sarsa) 2.off-policy实现(

2020-12-14 10:51:05 1393 1

原创 第5章 Monte Carlo蒙特卡洛方法

参考书籍: Reinforcement Learning An introduction第二版 作者:Richard S. Sutton and Andrew G. Barto以及此书的中文版《强化学习》第5章 Monte Carlo蒙特卡洛方法上一章:第4章:动态规划下一章:还没写1.重点重点重点这小节内容全是重点内容,非常重要,要是不懂的话,之后得强化学习算法都不能学得很好。因为很多算法都会使用蒙特卡洛法,而必须知道该方法的原理,解决什么样的问题,才能知道后面的强化学习的算法为什么要使.

2020-12-07 21:29:32 1762 1

原创 第4章 动态规划-策略迭代和价值迭代

参考书籍:Reinforcement Learning An introduction 第二版作者:Richard S. Sutton and Andrew G. Barto介绍动态规划在强化学习中的使用受到限制。主要因为两个原因:1.动态规划要求一个正确的模型假设。2.动态规划计算开销大。但是,动态规划是理解其它强化学习方法的基础。其它不使用动态规划的强化学习方法所做的事情,仅仅是为了在不知道模型和减小计算开销的条件下,达到和动态规划一样的效果。虽然动态规划也可以应用到连续的动作和状态空间

2020-12-06 20:01:29 1755

原创 第3章:有限马尔可夫决策过程

参考书籍:Reinforcement Learning An introduction 第二版作者:Richard S. Sutton and Andrew G. Barto代理-环境接口马尔可夫决策过程(MDP)是代理对环境执行动作,环境受到动作影响后,做出反馈并将新的环境反馈给代理,然后代理又采取动作…这样一个“决策过程”。马尔可夫决策过程中的“决策”体现在代理需要确定采用哪一个动作。“过程”体现在不断的进行交互。如上图所示,环境与代理得交互过程中,环境会给代理提供状态和奖励,代理对环境执行

2020-11-20 17:51:19 932 1

原创 第2章:多臂赌博机

参考书籍:Reinforcement Learning An introduction 第二版作者:Richard S. Sutton and Andrew G. Barto1.问题描述k-摇臂赌博机问题你需要重复地对 k 个不同的选项或动作做出选择. 在每一次选择后你会获得一个实数型的奖赏, 该奖赏是从固定的概率分布中采样获得的, 且该概率分布取决于你所选择的动作. 你的目标在一定的时期内, 如 1000 个动作选择或时步 内, 最大化期望的奖赏和。在我们的 k-摇臂赌博机问题中, k 个动作

2020-11-18 17:25:19 218

原创 第1章:强化学习介绍

参考书籍:Reinforcement Learning An introduction 第二版作者:Richard S. Sutton and Andrew G. Barto1.强化学习强化学习是学习如果对环境的一系列状态施加一些列动作,使得这个过程的奖励最大化。强化学习的主要特点:试错搜索(只能不断的尝试,从失败中吸取教训)延时奖励(采取一个动作,不一定会影响当前收益,但是很可能会影响未来的收益)强化学习不同于监督学习。监督学习是给的了标签的,强化学习并没有正确的标签,即使你想给出标签

2020-11-17 14:09:20 415

原创 DDPG算法流程

背景本文介绍DDPG具体是如何进行采样,然后如何使用采集的样本进行训练,以及更新网络的。这意味更加注重DDPG在实践中的一整套流程。预备知识因为这篇文章是站在一个全局的角度,讲解DDPG的具体使用。不会涉及到更新的具体细节,更新的公式。因此,要想了解具体的更新细节(比如,损失函数)可以查阅其它资料。DDPG使用细节DDPG网络结构由现实actor网络、目标actor网络、现实Q网络、目标Q网络这四个网络组成。DDPG具体使用流程:步骤1:先初始化现实Actor和现实Critic。然后把现实Ac

2020-11-13 14:53:02 7461 4

原创 Learning Off-Policy with Online Planning

介绍这是2020年ICML会议上的一篇论文。它想法是将model-based和model-free的方法进行结合。将两者结合是为了结合各自的优点。两者的优缺点如下:Model-based优点:采样效率高缺点:规划视野受限Model-free优点: 考虑了未来的长期奖励=视野长(相对与model-based的方法而言)缺点:采样效率低,需要与环境进行大量交互为了结合Model-based采样效率高和Model-free视野长的优点,这篇论文提出了Learning Off-Policy wit

2020-11-10 11:11:48 327

原创 Win10下安装mujuco

强化学习之Win10下安装mujuco1.背景我之前玩的环境都是些简单的、易处理的环境,就是下面这种:(第一张图是移动下面的方块保持杆子立起来环境。第二张图是小车爬山环境,第三张图是给杆子施加力使得杆子保持立起来环境)从图也可以看出,是比较简单的环境。而mujuco提供了半猎豹奔跑环境、人学习走路环境、学习游泳环境等等非常有意思的环境。接下来就介绍一下如何安装mujuco环境。。2.介绍“麻烦给我的电脑来一杯Mujuco”嘻嘻”“MuJoCo是目前机器人强化学习中最流行的仿真器。它提供了很多有趣

2020-11-06 12:05:43 1929 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除