目的:为了让智能体θ1 看着 另一个智能体θ2玩游戏,然后智能体θ1从θ2中学习。即舍弃on-policy的缓慢,智能体2负责玩,智能体1负责学。可以异步进行提升效率。
直观理解
-
最开始的时候
智能体1 和 智能体2 完全一样。假设有三个动作 分别是左中右
这个时候的概率是 【0.5,0.2,0.3】
他们的行为完全一致,那么重要性采样的权重对于左中右动作都是 【1,1,1】 -
当我智能体1学习了很多轮
这个时候智能体2还是他自己没动,左中右的概率是【0.5,0.2,0.3】
假设这个时候智能体1的左中右概率是【0.9,0.1,0.1】
那么对于采样出来的样本的重要性权重则会变为【0.9/0.5,0.1/0.2,0.1/0.3】
就是对于采样样本来说,我应该对他学习多少。
直观的理解就是 虽然此时此刻我学习的对象是 动作【右】
但是智能体1在学习了很多轮后 对于这次的采样只会学 0.1/0.3 在最开始的时候他是学 0.3/0.3 这么多的。
就是说对于动作【右】,你智能体2虽然是采样出来了,但是我智能体1觉得不那么重要了,就学的更少了。