当使用超级玛丽游戏作为例子时,我们可以将每个episode视为一个完整的游戏回合。在每个回合结束时,我们会获得一个奖励值,表示整个回合的表现好坏。
假设我们已经进行了多个episode,并记录了每个episode的奖励值。现在我们想要计算average reward,以了解整体性能。
首先,我们将所有episode的奖励值进行加权平均。假设前面所有episode的奖励值加权平均为10。对于新的episode,它的奖励值为5。
我们可以使用以下公式来计算新的average reward:
average_reward = (average_reward * n_previous_episodes + episode_reward) / (n_previous_episodes + 1)
在这个例子中,n_previous_episodes表示已经完成的episode数量。通过将先前平均奖励值乘以已完成的episode数量,我们可以获得前面所有episode的总奖励值。
然后,我们将前面所有episode的总奖励值与新的episode奖励值相加,再除以已完成的episode数量+1,得到新的average reward。
这种加权平均方法可以确保我们较好地反映了所有已完成episode的奖励情况,并且随着新的episode的进行,average reward会逐渐更新,以反映最新的奖励值情况。