[RL] 深入理解Tabular Leaning (MC/TD) 过程中的梯度下降使用

3 篇文章 0 订阅

深入理解Tabular Leaning过程中的梯度下降使用:

  • i.e. Tabular Leaning:TD/MC/DP
  • 梯度下降: GD/SGD/Semi-GD

在强化学习中,众多Tabular算法均需要通过梯度下降来获取optimal weight (finding the global optimal point),从而在Function Approximation(函数拟合学习)过程中更好的对value/policy进行更新。

一般情况下,我们在MC情况下使用SGD (效率远高于GD),而我们对TD仅使用Semi-GD。此处的Semi-GD与SGD本质相同,使用Semi-GD(半梯度下降,可视为一种halfway失败的梯度下降)时效能下降则是因为本该仅受制于GD的weight同时受制于incremental leaning(TD为bootstrapping timestep-based leaning,基于step更新w值),其影响了常规SGD过程中对weight的更新,该冲突无法被有效解决,但Semi-GD(半梯度下降)依旧有效,且保障了online learning过程中可以有效执行weight优化。最终收敛于逼近local optimal point的临近位置;

  • GD在bootstrapping case下 (Semi-GD),无法像general case下(e.g., MC)表现优异;
  • Semi-GD支持快速online/continuous学习主要适用于timestep-based learning (e.g., TD / DP)

Reference:
https://d3c33hcgiwev3.cloudfront.net/3DNhDLVwEem6HRJVmJRoIA_734570ad15244835be4b2e906c3400fd_RLbook2018.pdf?Expires=1650153600&Signature=OHM9Z-mNO1VQ77osPH4r-cFXJlMjLvVWSsPOwN8Mt6yCQRiOLH95B4vdXhwoOpekPAkslVxyyev57O9d23oMkk77fsVubIiBNI5pRKYF9G9sA4QoUJSWlCdS5tJcDv5Zuy7PWVkvT4oQmpd9CeimPqK7I29QxQ8YGHT~Ils_&Key-Pair-Id=APKAJLTNE6QMUY6HBC5A

Copyright:
CMPUT 365, University of Alberta

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值