强化学习
文章平均质量分 90
《Reinforcement Learning: An Introduction, 2ed edition》 读书笔记
梦逸清尘
人生苦短,我用PyTorch
展开
-
【Gym】CartPole-v0实验不显示CartPole(倒立摆)
背景系统:Ubuntu19.10gym:0.15.7问题在运行下列示例后:import gymenv = gym.make('CartPole-v0')env.reset()for _ in range(1000): env.render() env.step(env.action_space.sample())env.close()画面上没有CartPole...原创 2020-02-28 09:45:27 · 5378 阅读 · 12 评论 -
【Spinning Up】成为一名深度强化学习研究者
1. 必要的背景知识1.1 扎实的数学背景概率与统计、随机变量、贝叶斯理论、概率论中的链式法则、期望、标准差、重要性采样、多变量积分、梯度以及泰勒展开。1.2 必要的深度学习知识包括标准架构(多层神经网络、vanilla RNN、LSTM、卷积层、GRU、残差网络、注意力机制),常见的正则化方法(权重衰减、dropout),标准化(批标准化、layer norm、weight norm)以...翻译 2020-02-23 12:16:01 · 635 阅读 · 1 评论 -
【Spinning Up】绘制结果
Spinning Up自带了一个plotting模块,用来绘制输出,调用格式如下:python -m spinup.run plot [path/to/output_directory ...] [--legend [LEGEND ...]] [--xaxis XAXIS] [--value [VALUE ...]] [--count] [--smooth S] [--selec...翻译 2020-02-22 18:51:19 · 705 阅读 · 3 评论 -
【Spinning Up】实验输出
备注:在Spinning Up当前的实现中,没有方法重新开始训练未完成训练的智能体(partially-trained agents)。1. 算法输出每一个算法的输出都会保留一下几个部分:超参数配置、学习进程、被训练的智能体和值函数,以及环境的拷贝(如果可能的话)。输出目录(output directory)的结构如下:目录含义pyt_save/只针对PyTorch实现...翻译 2020-02-22 17:22:56 · 675 阅读 · 3 评论 -
【Spinning Up】 运行实验
1. 从命令行启动格式为:python -m spinup.run [algo_name] [experiment_flags]例如:python -m spinup.run ppo --exp_name ppo_ant --env Ant-v2 --clip_ratio 0.1 0.2 --hid[h] [32,32] [64,32] --act torch.nn.Tanh -...翻译 2020-02-22 13:06:25 · 1174 阅读 · 3 评论