KL散度(Kullback-Leibler Divergence)是一个衡量两个概率分布之间差异的指标,在强化学习(Reinforcement Learning, RL)中有着广泛的应用。
它在优化和策略更新中扮演了重要角色,尤其是在策略梯度方法和基于概率的方法中。
以下将详细解释KL散度在强化学习中的应用,并通过一个具体的例子说明其作用。
1. 什么是KL散度?
KL散度是用来衡量两个概率分布 (P) 和 (Q) 之间的差异的非对称度量。
数学上,KL散度定义为:
[ ]
或在连续情况下:
[