强化学习的学习之路(二十九)_2021-01-29:Practical tips for DQN

作为一个新手,写这个强化学习-基础知识专栏是想和大家分享一下自己学习强化学习的学习历程,希望对大家能有所帮助。这个系列后面会不断更新,希望自己在2021年能保证平均每日一更的更新速度,主要是介绍强化学习的基础知识,后面也会更新强化学习的论文阅读专栏。本来是想每一篇多更新一点内容的,后面发现大家上CSDN主要是来提问的,就把很多拆分开来了(而且这样每天任务量也小一点哈哈哈哈偷懒大法)。但是我还是希望知识点能成系统,所以我在目录里面都好按章节系统地写的,而且在github上写成了书籍的形式,如果大家觉得有帮助,希望从头看的话欢迎关注我的github啊,谢谢大家!另外我还会分享深度学习-基础知识专栏以及深度学习-论文阅读专栏,很早以前就和小伙伴们花了很多精力写的,如果有对深度学习感兴趣的小伙伴也欢迎大家关注啊。大家一起互相学习啊!可能会有很多错漏,希望大家批评指正!不要高估一年的努力,也不要低估十年的积累,与君共勉!

接下来的几个博客将会分享以下有关DQN算法及其改进,包括DQN(Nature)、Double DQN、 Multi-step DQN、Pirority Replay Buffer、 Dueling DQN、DQN from Demonstrations、Distributional DQN、Noisy DQN、Q-learning with continuous actions、Rainbow、Practical tips for DQN等。

一些基本的tips:

  • Q-learning对稳定性要求比较高,在编写算法的时候先在简单的环境上测试。

在这里插入图片描述

  • 探索的幅度在前期要大,随着训练进行,要慢慢降低。

  • Replay Buffer越大,越有助于提高稳定性。

  • 训练需要一定的时间,需要耐心。

一些选择上的tips:

  • 由于Q的误差影响比较大,所以Bellman error会很大,进行gradient clip或者Huber loss都会有一定的帮助。

在这里插入图片描述

  • 这里Huber loss的系数也需要一定的调节,在DQN相关的作业中可以调整一下,初始值是1.0,不过调整下1.3似乎是一个更好的结果。

  • Double Q-learning帮助很大,N-steps帮助也很大,但是会带来一些坏处。

  • Adam Optimizer,Schedule exploration,Learning rates都会有帮助。

  • 多个随机种子可能会带来惊喜。

上一篇:强化学习的学习之路(二十八)_2021-01-28:Rainbow
下一篇:强化学习的学习之路(三十)_2021-01-30: Policy Optimazation 简介

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值