今晚直播 |现实环境中的强化学习如何解决?你不可错过的RL终极奥义


都说强化学习很难,其实掌握了正确的学习方法,也会变得非常简单!

这次,所以我们荣幸的邀请到了百度连续两届获得NeurIPS全球顶会赛事冠军团队,6月16日-6月23日,连续7天,20:30-21:30,以直播的形式,手把手带大家从零实践强化学习!

昨晚的直播课中,科科老师详细的给大家解释了Policy Gradient涉及的数学公式,带大家去理解算法是如何一步步如何优化目标的。通过科科老师的耐心梳理,大家对强化学习一定有了更深刻的理解。

今晚精彩更多

之前的课程,我们讨论的都是离散的动作空间,而在实际问题中,存在大量连续空间的问题,比如价格、角度、时间等。想要枚举所有的动作变得更困难,而如何将所有可行的动作逐一尝试出来也变得不那么可能。如何解决呢?别着急,今天科科老师带你一一击破!

连续动作空间上求解RL

1. 离散动作与连续动作

2. 详解Deep Deterministic Policy Gradient

3. DDPG代码解析

为了在连续动作上更有效地学习,DDPG也应运而生:

终极复现项目赛题发布

重点来了!今晚发布终极复现项目赛题,更有科科老师现场讲解项目环境,点拨实现技巧,大家千万不要错过!抢先看:

实现难度(两颗星):


实现难度(三颗星):


实现难度(五颗星):


更多赛题,今晚敬请期待~

直播时间

6月20日(今晚)20:30 - 21:30

讲师介绍

百度高级研发工程师 科科老师

飞桨强化学习PARL团队核心成员,所在团队曾两度夺得NeurIPS强化学习赛事世界冠军,并获得百度最高奖等荣誉。

快来和世界冠军大佬面对面交流吧~

点击“阅读原文”加入课程,获取更多课程资料哦!

展开阅读全文
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值