Off-policy evaluation的一些知识点
最近做试验中遇到用off-policy数据估计策略性能提升的问题,估计的准确性直接影响到后面对这些数据的利用。然后就一不小心看到了一个RL的未接触过得领域----Off-Policy Evaluation(OPE)。发现有篇综述介绍的很详细,并且给出了benchmark,所以简单记录一下这个领域的一些概念和当前研究的进展及其分类,详细了解转[PAPER]。OPE的定义首先是off-policy evaluation问题的定义,直接来说就是利用behavior policy πb\pi_bπb采样的数据
原创
2020-07-30 10:05:54 ·
1813 阅读 ·
2 评论