【强化学习】重要性采样的直观理解

最新推荐文章于 2024-05-13 22:56:25 发布

SoloMiku

最新推荐文章于 2024-05-13 22:56:25 发布

阅读量631

点赞数

分类专栏：强化学习

本文链接：https://blog.csdn.net/weixin_43977125/article/details/125493188

版权

2 篇文章 0 订阅

订阅专栏

目的：为了让智能体θ1 看着另一个智能体θ2玩游戏，然后智能体θ1从θ2中学习。即舍弃on-policy的缓慢，智能体2负责玩，智能体1负责学。可以异步进行提升效率。

直观理解

最开始的时候
智能体1 和智能体2 完全一样。假设有三个动作分别是左中右
这个时候的概率是【0.5，0.2,0.3】
他们的行为完全一致，那么重要性采样的权重对于左中右动作都是【1,1,1】
当我智能体1学习了很多轮
这个时候智能体2还是他自己没动，左中右的概率是【0.5,0.2,0.3】
假设这个时候智能体1的左中右概率是【0.9,0.1,0.1】
那么对于采样出来的样本的重要性权重则会变为【0.9/0.5,0.1/0.2,0.1/0.3】
就是对于采样样本来说，我应该对他学习多少。

直观的理解就是虽然此时此刻我学习的对象是动作【右】
但是智能体1在学习了很多轮后对于这次的采样只会学 0.1/0.3 在最开始的时候他是学 0.3/0.3 这么多的。
就是说对于动作【右】，你智能体2虽然是采样出来了，但是我智能体1觉得不那么重要了，就学的更少了。