Wasserstein 距离 起源于最优传输理论(维拉尼获菲尔兹奖的那个领域),又叫 Kantorovich-Rubinstein distance。
对于离散概率分布,Wasserstein 距离又称为“推土机距离”(Earth Mover’s Distance)。如果我们把这些分布想象成一定数量的不同土堆,那么EMD就是将一个堆转换成另一个堆所需的最小总工作量。所需要的工作量就是一块土中的土量乘以它被移动的距离。假设相应的离散分布分别为 P r P_r Pr 和 P θ P_{\theta} Pθ,每个都有 l l l 个可能的状态 x x x 和 y y y,并以两个任意分布为例。
计算EMD本身就是一个优化问题:将土堆转移有无数种方法,我们需要找到其中最优的方法。我们的目标就是寻找最优的 γ ( x , y ) \gamma(x,y) γ(x,y),它可以直观地理解为从 x x x 移到 y y y 的土量。一个有效的运输计划必须满足下面的约束:
∑ x γ ( x , y ) = P r ( y ) \mathop{\sum}\limits_x \gamma(x,y)=P_r(y) x∑γ(x,y)=P