最近做试验中遇到用off-policy数据估计策略性能提升的问题,估计的准确性直接影响到后面对这些数据的利用。然后就一不小心看到了一个RL的未接触过得领域----Off-Policy Evaluation(OPE)。发现有篇综述介绍的很详细,并且给出了benchmark,所以简单记录一下这个领域的一些概念和当前研究的进展及其分类,详细了解转[PAPER]。
OPE的定义
首先是off-policy evaluation问题的定义,直接来说就是利用behavior policy π b \pi_b πb采样的数据来评估target policy π e \pi_e πe的价值函数 V ( π e ) V(\pi_e) V(πe)。具体的数学定义如下:
Definition:行为策略 π b \pi_b πb采样的历史数据 D = { τ i } i = 1 N D=\left\{\tau^i\right\}^N_{i=1} D={
τi}i=1N,以轨迹样本 τ i = ( x 0 i , a 0 i , r 0 i , ⋯ , x T − 1 i , a T − 1 i , r T − 1 i ) \tau^i=(x^i_0,a^i_0, r^i_0, \cdots, x^i_{T-1}, a^i_{T-1},r^i_{T-1}) τi=(x0i,a0i,r0i,⋯,xT−1i,aT−1i,rT−1i)为单位样本,其中轨迹长度 T T T一般定长;OPE的目标是估计一个给定的目标策略 π e \pi_e πe的价值函数:
V ( π e ) = E x ∼ d 0 [ ∑ t = 0 T − 1 γ t r t ∣ x 0 = x ] V(\pi_e)=\mathbb{E}_{x\sim d_0}\left[\sum^{T-1}_{t=0}\gamma^t r_t|x_0=x\right] V(πe)=Ex∼d
Off-Policy Evaluation(OPE)是强化学习中用于评估目标策略性能的重要方法,利用行为策略数据估计目标策略的价值函数。文章介绍了OPE的定义,包括轨迹样本和价值函数的数学表达,并概述了OPE方法的分类,如Inverse Propensity Scoring(IPS)、Direct Methods(DM)和Hybrid Methods(HM)。IPS基于重要性采样,而DM分为模型基和模型自由方法。文章还讨论了不同场景下选择OPE方法的准则。
最低0.47元/天 解锁文章
1068

被折叠的 条评论
为什么被折叠?



