Wasserstein距离（最优传输距离：

学好数学和算法

已于 2023-12-27 20:34:28 修改

阅读量2.9w

点赞数 57

文章标签： python numpy 开发语言

于 2022-06-28 18:46:22 首次发布

原文链接：https://chih-sheng-huang821.medium.com/%E9%82%84%E7%9C%8B%E4%B8%8D%E6%87%82wasserstein-distance%E5%97%8E-%E7%9C%8B%E7%9C%8B%E9%80%99%E7%AF%87-b3c33d4b942

版权

wasserstein距离（最优传输距离：

Wasserstein Distance也称为推土机距离（Earth Mover’s distance, EMD)，Wasserstein Distance的定义是评估由P分布转换成Q分布所需要的最小代价(移动的平均距离的最小值)→和挖东墙补西墙类似(把一个形状转换成另一个形状所需要做的最小工)，所以经常查到Wasserstein Distance称为推土机距离。

Wasserstein Distance范例1:

假设有两个分布P分布和Q分布，这里用离散的分布介紹，(假设x1→x2、x2→x3、x3→x4、x4→x5距离都是1)
在这里插入图片描述 P和Q的分布状况
这里举3个不同移动的方式，将P移动成Q

方法1：

在这里插入图片描述

方法2：

在这里插入图片描述

方法3：

在这里插入图片描述
三个方法的移动动量都是8。这是个简单的范例应该没有更短的移动方式，所以此范例的Wasserstein Distance/EMD = 8，但实际上Wasserstein Distance/ EMD计算要进行标准化去移动(考虑总数14个): 所以Wasserstein Distance = 8/14=4/7= 0.5714

python程序(利用scipy函数)计算

import scipy.stats
import numpy as np

P = np.array([3,5,2,1,3])
Q = np.array([2,3,4,5,0])
dists=[i for i in range(len(P))]
D=scipy.stats.wasserstein_distance(dists,dists,P,Q)
print(D)

ANS: 0.5714285714285714

实际上P和Q的分布是长得像下图，所以在用scipy计算Wasserstein Distance输入项，前两项是在看在X轴的位置，所以我用[0,1,2,3,4]作为前两项输入，來计算Wasserstein Distance。

在这里插入图片描述

Wasserstein Distance范例2:

假设有两个分布P分布和Q分布，这里用离散的分布介紹，(假设x1→x2、x2→x3、x3→x4、x4→x5、x5→x6距离都是1)

在这里插入图片描述
这里举例一种移动的方式，将P移动成Q

在这里插入图片描述
移动动量都是12。这是个简单的范例应该沒有更短的移动方式，此范例计算要标准化去移动(考虑总数4个): 所以Wasserstein Distance = 12/4=3

python程序计算

import scipy.stats
import numpy as np

P = np.array([1,2,1])
Q = np.array([1,2,1])
dists_P=[0,1,2]
dists_Q=[3,4,5]
D1=scipy.stats.wasserstein_distance(dists_P, dists_Q, P, Q)
print(D1)

ANS: 3.0

实际上P和Q的分布是长得像下图，所以在用scipy计算Wasserstein Distance输入项，前两项是在看在X轴的位置，所以在P分布用[0,1,2]，Q分布是用[4, 5, 6]作为前两项输入，来计算Wasserstein Distance。

在这里插入图片描述