格雷拉-皮奇-CSDN博客

原创决策树算法中：根据信息增益选取下一个分类特征（python代码-算法面试）

决策树基于信息增益选择特征的python实现

2022-09-01 17:09:24 501

原创逻辑斯蒂回归（逻辑回归）Python简单实现（算法笔试）

算法岗位，可能会让你简单写这个

2022-09-01 17:04:34 706

原创 window环境，pycharm中执行.sh文件

背景在运行神经网络相关的实验的时候，通常要跑很多次实验，而每次实验运行时间很久，每运行完一次就需要手动再运行下一次实验。（如果半夜运行完一次，那机器就空着了很难受）。.sh脚本可以自动的运行多次实验。例如下面这个.sh脚本，可以连续执行10次不同随机种子seed的实验。而不需要人为中途设置，我们只需要在代码中添加每次实验的参数信息就行了。#!/bin/bash# Script to reproduce resultsfor ((i=0;i<10;i+=1))do python ma

2021-07-02 10:18:50 22723 21

原创 genetic soft updates for policy evolution in deep reinforcement learning

论文链接：论文传送门介绍这篇论文是也是强化学习和进化算法的结合。其中强化学习部分可以采用任何强化学习算法（value-based（DQN）、policy-gradient(PPO、TRPO)、ac（DDPG、TD3、SAC）），进化算法部分采用的是进化策略（ES）。本文的优势就在于可以采用任意的强化学习算法进行结合，而以前的ERL、PDERL、CEM-ERL等都在才用ac以外方法时，效果不是很好。背景本文的优势有：减少开销（定期生成种群评估，而不需要每轮评估）可以和任何强化学习方法结合即便

2021-04-16 16:29:46 640 1

原创 Collaborative Evolutionary Reinforcement Learning

论文链接：论文传送门官方pytorch代码实现：代码传送门介绍这篇论文之前发的ERL论文的改进版本（ERL介绍链接）这篇文章提出的核心要点可以总结为两个：1.不同的策略都共享同一经验池的经验，提高采样效率2.多个未来折扣率不同的Critic对Actor策略进行指导，从而提供更多样化探索，能更好的在策略空间进行探索原理1.概念介绍为了更好的理解CERL框架，我们可以回想一下当初讲ERL的时候，ERL是进化算法和强化学习的结合，其中强化学习部分采用的是DDPG，也就是一对actor网络和一对cr

2021-03-19 17:46:11 788

原创 CEM-RL

论文：传送门介绍之前讲了ERL，ERL是进化算法和off-policy强化学习算法的结合。而这篇CEM-RL也是进化算法和off-policy强化学习算法的结合。ERL和CEM-RL的主要区别在于两者进化算法的区别。先说一下，进化算法分四类：1、进化策略 2、进化规划 3、遗传算法 4、遗传规划有兴趣的可以了解一下，但是目前据我了解，在强化学习当中应用比较多的是进化策略和遗传算法。至于进化规划和遗传规划似乎可以暂时忽略。回到正题，ERL采用的进化算法是遗传算法。而CEM-RL采用的进化算法是进化策

2021-03-16 17:30:58 1604

原创分布式优先级经验回放（Distributed Prioritized Experience Replay）

论文链接：我是传送门背景传统对经验池进行均匀采用很明显是不合适的，因为有的经验是更加有帮助的，因此，提出了优先级经验回放（对经验设置优先级，按优先级大小采样）。本文对优先级经验回放采用分布式的设置，通过分布式获取多样性经验，达到更好的效果。传统的分布式强化学习是分布式求解梯度，并返回梯度信息。例如A3C，结构图如下，其中WORKERS给GLOBAL NETWORK提供的是梯度，而本文的想法是WORKERS给GLOBAL NETWORK提供经验，因此WORKERS不需要提供梯度，也就不需要反向传播求解梯

2021-03-09 17:00:30 2955

原创 Proximal Distilled Evolutionary Reinforcement Learning

论文：传送门介绍上一篇讲的进化强化学习ERL（evolutionary reinforcement learning）是简单的将进化算法和强化学习算法进行结合。而本文则是对这种结合提出了几个改进，并将改进方法命名为Proximal Distilled Evolutionary Reinforcement Learning背景在传统的进化算法与强化学习算法结合后，进化算法当中的种群的个体是神经网络。因此，我们需要对神经网络进行交叉和变异。而本文认为传统的n点交叉和高斯变异着两个遗传算子不使用于神经网

2021-03-08 12:15:24 867

原创 ERL（evolutionary reinforcement learning）

论文：Evolution-Guided Policy Gradient in Reinforcement Learning原文链接：传送门1.介绍现在各种方法的结合成为了很好的研究方向。之前我发的“Learning Off-Policy with Online Planning”就是有模型和无模型强化学习方法的结合。本文则是进化算法和强化学习的结合。值得注意的是，之前已经有人将进化算法作为解决强化学习问题的一种方法了（论文），但是之前并没有与原来的强化学习方法进行结合。打个形象的比方：假如之前解决强

2021-03-08 11:29:52 3210 5

原创强化学习之确定性策略网络和随机策略网络

强化学习当中策略可以分为随机策略和确定性策略两类。1 确定性策略确定性策略是输入一个状态s，策略会给出一个确定的动作a，可以用以下形式表示。u表示的是确定性策略。t时刻的状态写作st。t时刻在st状态下采取的动作为at。实现时，只需要建立一个神经网络，输入状态，输出一个确定的动作就行。使用了确定性策略的算法有：DDPG、TD3。DQN中的目标策略一般也是贪婪的确定性策略。2 随机策略随机策略是输入一个状态s，输出的是动作分布。随机策略通常用π表示。对于st条件下，每一个动作都是以概率被选取

2020-12-27 18:18:49 5046 2

原创动态规划、蒙特卡洛、时序差分、n步bootstrap方法小总结

所有的方法都遵循广义策略迭代（即，广义上的策略评估和策略提升过程）方法是否bootstrap是否基于模型实现方式动态规划是是1.策略迭代2.价值迭代蒙特卡洛否否1.蒙特卡洛ES 2.on-policy实现 3.off-policy实现时序差分是否1.on-policy实现（sarsa） 2.off-policy实现（q-learning）n步bootstrap是否1.on-policy实现（n步sarsa） 2.off-policy实现（

2020-12-14 10:51:05 1662 1

原创第5章 Monte Carlo蒙特卡洛方法

参考书籍： Reinforcement Learning An introduction第二版作者：Richard S. Sutton and Andrew G. Barto以及此书的中文版《强化学习》第5章 Monte Carlo蒙特卡洛方法上一章：第4章：动态规划下一章：还没写1.重点重点重点这小节内容全是重点内容，非常重要，要是不懂的话，之后得强化学习算法都不能学得很好。因为很多算法都会使用蒙特卡洛法，而必须知道该方法的原理，解决什么样的问题，才能知道后面的强化学习的算法为什么要使.

2020-12-07 21:29:32 1926 1

原创第4章动态规划-策略迭代和价值迭代

参考书籍：Reinforcement Learning An introduction 第二版作者：Richard S. Sutton and Andrew G. Barto介绍动态规划在强化学习中的使用受到限制。主要因为两个原因：1.动态规划要求一个正确的模型假设。2.动态规划计算开销大。但是，动态规划是理解其它强化学习方法的基础。其它不使用动态规划的强化学习方法所做的事情，仅仅是为了在不知道模型和减小计算开销的条件下，达到和动态规划一样的效果。虽然动态规划也可以应用到连续的动作和状态空间

2020-12-06 20:01:29 1887

原创第3章：有限马尔可夫决策过程

参考书籍：Reinforcement Learning An introduction 第二版作者：Richard S. Sutton and Andrew G. Barto代理-环境接口马尔可夫决策过程（MDP）是代理对环境执行动作，环境受到动作影响后，做出反馈并将新的环境反馈给代理，然后代理又采取动作…这样一个“决策过程”。马尔可夫决策过程中的“决策”体现在代理需要确定采用哪一个动作。“过程”体现在不断的进行交互。如上图所示，环境与代理得交互过程中，环境会给代理提供状态和奖励，代理对环境执行

2020-11-20 17:51:19 1023 1

原创第2章：多臂赌博机

参考书籍：Reinforcement Learning An introduction 第二版作者：Richard S. Sutton and Andrew G. Barto1.问题描述k-摇臂赌博机问题你需要重复地对 k 个不同的选项或动作做出选择. 在每一次选择后你会获得一个实数型的奖赏, 该奖赏是从固定的概率分布中采样获得的, 且该概率分布取决于你所选择的动作. 你的目标在一定的时期内, 如 1000 个动作选择或时步内, 最大化期望的奖赏和。在我们的 k-摇臂赌博机问题中, k 个动作

2020-11-18 17:25:19 273

原创第1章：强化学习介绍

参考书籍：Reinforcement Learning An introduction 第二版作者：Richard S. Sutton and Andrew G. Barto1.强化学习强化学习是学习如果对环境的一系列状态施加一些列动作，使得这个过程的奖励最大化。强化学习的主要特点：试错搜索（只能不断的尝试，从失败中吸取教训）延时奖励（采取一个动作，不一定会影响当前收益，但是很可能会影响未来的收益）强化学习不同于监督学习。监督学习是给的了标签的，强化学习并没有正确的标签，即使你想给出标签

2020-11-17 14:09:20 539

原创 DDPG算法流程

背景本文介绍DDPG具体是如何进行采样，然后如何使用采集的样本进行训练，以及更新网络的。这意味更加注重DDPG在实践中的一整套流程。预备知识因为这篇文章是站在一个全局的角度，讲解DDPG的具体使用。不会涉及到更新的具体细节，更新的公式。因此，要想了解具体的更新细节（比如，损失函数）可以查阅其它资料。DDPG使用细节DDPG网络结构由现实actor网络、目标actor网络、现实Q网络、目标Q网络这四个网络组成。DDPG具体使用流程：步骤1：先初始化现实Actor和现实Critic。然后把现实Ac

2020-11-13 14:53:02 7840 4

原创 Learning Off-Policy with Online Planning

介绍这是2020年ICML会议上的一篇论文。它想法是将model-based和model-free的方法进行结合。将两者结合是为了结合各自的优点。两者的优缺点如下：Model-based优点：采样效率高缺点：规划视野受限Model-free优点：考虑了未来的长期奖励=视野长（相对与model-based的方法而言）缺点：采样效率低，需要与环境进行大量交互为了结合Model-based采样效率高和Model-free视野长的优点，这篇论文提出了Learning Off-Policy wit

2020-11-10 11:11:48 434

原创 Win10下安装mujuco

强化学习之Win10下安装mujuco1.背景我之前玩的环境都是些简单的、易处理的环境，就是下面这种：（第一张图是移动下面的方块保持杆子立起来环境。第二张图是小车爬山环境，第三张图是给杆子施加力使得杆子保持立起来环境）从图也可以看出，是比较简单的环境。而mujuco提供了半猎豹奔跑环境、人学习走路环境、学习游泳环境等等非常有意思的环境。接下来就介绍一下如何安装mujuco环境。。2.介绍“麻烦给我的电脑来一杯Mujuco”嘻嘻”“MuJoCo是目前机器人强化学习中最流行的仿真器。它提供了很多有趣

2020-11-06 12:05:43 2249 2