这两个公式都是用来描述Wasserstein距离(推土机距离)的不同表达方式。
第一个公式:
W
(
P
r
,
P
g
)
=
inf
γ
∼
Π
(
P
r
,
P
g
)
E
(
x
,
y
)
∼
γ
[
∣
∣
x
−
y
∣
∣
]
W(P_r,P_g)=\inf_{\gamma\sim\Pi(P_r,P_g)}\mathbb{E}_{(x,y)\sim\gamma}[||x-y||]
W(Pr,Pg)=γ∼Π(Pr,Pg)infE(x,y)∼γ[∣∣x−y∣∣]
表示的是Wasserstein距离的原始定义,它通过考虑所有可能的联合分布
γ
\gamma
γ(其边缘分布分别是
P
r
P_r
Pr和
P
g
P_g
Pg)来寻找最优传输计划,使得从分布
P
r
P_r
Pr到
P
g
P_g
Pg的"成本"(在这里是
x
x
x和
y
y
y之间的欧氏距离
∣
∣
x
−
y
∣
∣
||x-y||
∣∣x−y∣∣的期望)最小化。
第二个公式:
W
(
P
r
,
P
g
)
=
1
K
sup
∣
∣
f
∣
∣
L
≤
K
E
x
∼
P
r
[
f
(
x
)
]
−
E
x
∼
P
g
[
f
(
x
)
]
W(P_{r},P_{g})=\frac{1}{K}\sup_{||f||_{L}\leq K}\mathbb{E}_{x\sim P_{r}}[f(x)]-\mathbb{E}_{x\sim P_{g}}[f(x)]
W(Pr,Pg)=K1∣∣f∣∣L≤KsupEx∼Pr[f(x)]−Ex∼Pg[f(x)]
则是Wasserstein距离的一种等价表述,称为Kantorovich-Rubinstein对偶性。这个表述利用了Lipschitz连续函数的性质来描述分布之间的距离。其中,
∣
∣
f
∣
∣
L
≤
K
||f||_{L}\leq K
∣∣f∣∣L≤K表示函数
f
f
f是K-Lipschitz连续的,即对于所有的
x
x
x和
y
y
y,有
∣
f
(
x
)
−
f
(
y
)
∣
≤
K
∣
∣
x
−
y
∣
∣
|f(x)-f(y)|\leq K||x-y||
∣f(x)−f(y)∣≤K∣∣x−y∣∣。
简而言之,这两个公式都描述了Wasserstein距离,但它们从不同的角度来表达这个概念:第一个公式从最优传输的角度出发,第二个公式则利用Lipschitz连续函数的对偶性。在实际应用中,比如在生成对抗网络(GANs)中使用Wasserstein距离时,通常会根据具体的计算需求选择适当的表述形式。