Off-policy evaluation的一些知识点

Off-Policy Evaluation(OPE)是强化学习中用于评估目标策略性能的重要方法,利用行为策略数据估计目标策略的价值函数。文章介绍了OPE的定义,包括轨迹样本和价值函数的数学表达,并概述了OPE方法的分类,如Inverse Propensity Scoring(IPS)、Direct Methods(DM)和Hybrid Methods(HM)。IPS基于重要性采样,而DM分为模型基和模型自由方法。文章还讨论了不同场景下选择OPE方法的准则。
摘要由CSDN通过智能技术生成

最近做试验中遇到用off-policy数据估计策略性能提升的问题,估计的准确性直接影响到后面对这些数据的利用。然后就一不小心看到了一个RL的未接触过得领域----Off-Policy Evaluation(OPE)。发现有篇综述介绍的很详细,并且给出了benchmark,所以简单记录一下这个领域的一些概念和当前研究的进展及其分类,详细了解转[PAPER]

OPE的定义

首先是off-policy evaluation问题的定义,直接来说就是利用behavior policy π b \pi_b πb采样的数据来评估target policy π e \pi_e πe的价值函数 V ( π e ) V(\pi_e) V(πe)。具体的数学定义如下:

Definition:行为策略 π b \pi_b πb采样的历史数据 D = { τ i } i = 1 N D=\left\{\tau^i\right\}^N_{i=1} D={ τi}i=1N,以轨迹样本 τ i = ( x 0 i , a 0 i , r 0 i , ⋯   , x T − 1 i , a T − 1 i , r T − 1 i ) \tau^i=(x^i_0,a^i_0, r^i_0, \cdots, x^i_{T-1}, a^i_{T-1},r^i_{T-1}) τi=(x0i,a0i,r0i,,xT1i,aT1i,rT1i)为单位样本,其中轨迹长度 T T T一般定长;OPE的目标是估计一个给定的目标策略 π e \pi_e πe的价值函数:
V ( π e ) = E x ∼ d 0 [ ∑ t = 0 T − 1 γ t r t ∣ x 0 = x ] V(\pi_e)=\mathbb{E}_{x\sim d_0}\left[\sum^{T-1}_{t=0}\gamma^t r_t|x_0=x\right] V(πe)=Exd

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值