深入理解Tabular Leaning过程中的梯度下降使用:
- i.e. Tabular Leaning:TD/MC/DP
- 梯度下降: GD/SGD/Semi-GD
在强化学习中,众多Tabular算法均需要通过梯度下降来获取optimal weight (finding the global optimal point),从而在Function Approximation(函数拟合学习)过程中更好的对value/policy进行更新。
一般情况下,我们在MC情况下使用SGD (效率远高于GD),而我们对TD仅使用Semi-GD。此处的Semi-GD与SGD本质相同,使用Semi-GD(半梯度下降,可视为一种halfway失败的梯度下降)时效能下降则是因为本该仅受制于GD的weight同时受制于incremental leaning(TD为bootstrapping timestep-based leaning,基于step更新w值),其影响了常规SGD过程中对weight的更新,该冲突无法被有效解决,但Semi-GD(半梯度下降)依旧有效,且保障了online learning过程中可以有效执行weight优化。最终收敛于逼近local optimal point的临近位置;
- GD在bootstrapping case下 (Semi-GD),无法像general case下(e.g., MC)表现优异;
- Semi-GD支持快速online/continuous学习主要适用于timestep-based learning (e.g., TD / DP)
Reference:
https://d3c33hcgiwev3.cloudfront.net/3DNhDLVwEem6HRJVmJRoIA_734570ad15244835be4b2e906c3400fd_RLbook2018.pdf?Expires=1650153600&Signature=OHM9Z-mNO1VQ77osPH4r-cFXJlMjLvVWSsPOwN8Mt6yCQRiOLH95B4vdXhwoOpekPAkslVxyyev57O9d23oMkk77fsVubIiBNI5pRKYF9G9sA4QoUJSWlCdS5tJcDv5Zuy7PWVkvT4oQmpd9CeimPqK7I29QxQ8YGHT~Ils_&Key-Pair-Id=APKAJLTNE6QMUY6HBC5A
Copyright:
CMPUT 365, University of Alberta