强化学习之Eligibility Traces

Eligibility Traces是强化学习中的核心机制,用于改进TD算法,如Q Learning和Sarsa。它们可以从forward和backward两个视角理解,实际应用中常用backward视角。n-Step TD预测是其应用场景之一,通过不同步长的更新提高学习效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Eligibility Traces

 Eligibility traces是Reinforcement Learning中的一个基本机制。TD( λ )算法中的 λ 指的就是对Eligibility traces的运用。几乎所有的TD算法,包括Q Learning、Sarsa算法,可以结合Eligibility trace得到一个通用的能更有效学习的方法。
  可以从两种视角看待Eligibility trace,一种是forward(theoretical)的视角,另一种是backward(mechanical)的视角。顾名思义,forward即为向前看,backward即为向后看。forward的方式因其计算量较大,故在真正实践时都是用的backward的方式实现。

n-Step TD prediction

backup图
 图上是TD(1-step)…TD(n-step)、蒙特卡罗的backup图。target分别是:

G(1)t=Rt+1+γV(St
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值