MEPG论文阅读

此为论文泛读

论文的核心在于ensemble + dropout (或者说用dropout的方法代替ensemble)

Introduction

 

文中认为ensemble方法可以让agent更加robust,但是多个网络计算开销太大,因此只需要一个网络即可。同时使用了dropout方法。

文章的contributions:

提出了MEPG,不需要额外的loss和计算开销

进行了理论分析

将MEPG应用在DDPG和SAC上,达到sota

Minimalist Ensemble Policy Gradient

当训练Q时,通过dropout方法,相当于训练了ensemble。训练Policy时,使用完整的Q网络。

具体来说

 但是如果直接这样做,会导致贝尔曼方程两侧分布不匹配:

就是说左边的Q是通过dropout的,右边的Q_target也是dropout,但两个dropout不一样。

为了解决这个问题,提出了minimalist ensemble consistent Bellman update.

其实就是让等式两边的mask一致。

 

MEPG framework

policy evaluation: minimalist ensemble consistent Bellman update

policy improvement: conventional policy gradient

 每次sample的batch相当于训练ensemble的一个net

还有SAC的变种,差不多。

Theoretical Analysis

证明dropout operator能被视为一个deep GP。

 Adam使用了L2正则化,

 给出一个协方差函数:

 deep GP不太懂,得看看文献

Experiment

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值