[RL] 深入理解Tabular Leaning (MC/TD) 过程中的梯度下降使用

dénnnnnnnnnnn

已于 2022-04-19 12:06:26 修改

阅读量456

点赞数

分类专栏： # RL # ML 文章标签：机器学习算法人工智能

于 2022-04-19 11:58:39 首次发布

本文链接：https://blog.csdn.net/weixin_47553356/article/details/124270041

版权

RL 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

深入理解Tabular Leaning过程中的梯度下降使用：

i.e. Tabular Leaning：TD/MC/DP
梯度下降: GD/SGD/Semi-GD

在强化学习中，众多Tabular算法均需要通过梯度下降来获取optimal weight (finding the global optimal point)，从而在Function Approximation（函数拟合学习）过程中更好的对value/policy进行更新。

一般情况下，我们在MC情况下使用SGD (效率远高于GD)，而我们对TD仅使用Semi-GD。此处的Semi-GD与SGD本质相同，使用Semi-GD（半梯度下降，可视为一种halfway失败的梯度下降）时效能下降则是因为本该仅受制于GD的weight同时受制于incremental leaning（TD为bootstrapping timestep-based leaning，基于step更新w值），其影响了常规SGD过程中对weight的更新，该冲突无法被有效解决，但Semi-GD（半梯度下降）依旧有效，且保障了online learning过程中可以有效执行weight优化。最终收敛于逼近local optimal point的临近位置；

GD在bootstrapping case下 (Semi-GD)，无法像general case下(e.g., MC)表现优异；
Semi-GD支持快速online/continuous学习主要适用于timestep-based learning (e.g., TD / DP)

Reference：
https://d3c33hcgiwev3.cloudfront.net/3DNhDLVwEem6HRJVmJRoIA_734570ad15244835be4b2e906c3400fd_RLbook2018.pdf?Expires=1650153600&Signature=OHM9Z-mNO1VQ77os_{PH4r-cFXJlMjLvVWSsPOwN8Mt6yCQRiOLH95B4vdXhwoOpekPAkslVxyyev57O9d23oMkk77fsVubIiB}NI5pRKYF9G9sA4QoUJSWlCdS5tJcDv5Z_{uy7PWVkvT4oQmpd9C}eimPqK7I29QxQ8YGHT~Ils_&Key-Pair-Id=APKAJLTNE6QMUY6HBC5A

dénnnnnnnnnnn

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[RL] 深入理解Tabular Leaning (MC/TD) 过程中的梯度下降使用

深入理解Tabular Leaning过程中的梯度下降使用：i.e. Tabular Leaning：TD/MC/DP梯度下降: GD/SGD/Semi-GD在强化学习中，众多Tabular算法均需要通过梯度下降来获取optimal weight (finding the global optimal point)，从而在Function Approximation（函数拟合学习）过程中更好的对value/policy进行更新。一般情况下，我们在MC情况下使用SGD (效率远高于GD)，而我们对
复制链接

扫一扫

专栏目录