Wasserstein Disstance

Earth Mover’s Distance

先说直方图,直方图可以用集合来表示, s = { s 1 , s 2 , . . . , s n } s=\{s_1, s_2,...,s_n\} s={s1,s2,...,sn},其中 s j = ( m j , w j ) s_j=(m_j, w_j) sj=(mj,wj) m j m_j mj表示直方图第 j j j组, w j w_j wj表示第 j j j组的统计数量。那么已知两个直方图
P = { p 1 , p 2 , . . . , p n } = { ( m p 1 , w p 1 ) , ( m p 2 , w p 2 ) , . . . , ( m p n , w p n ) } Q = { q 1 , q 2 , . . . , q n } = { ( m q 1 , w q 1 ) , ( m q 2 , w q 2 ) , . . . , ( m q k , w q k ) } P=\{p_1, p_2,...,p_n\}=\{(m_{p_1}, w_{p_1}), (m_{p_2}, w_{p_2}),...,(m_{p_n}, w_{p_n})\} \\ Q=\{q_1, q_2,...,q_n\}=\{(m_{q_1}, w_{q_1}), (m_{q_2}, w_{q_2}),...,(m_{q_k}, w_{q_k})\} P={p1,p2,...,pn}={(mp1,wp1),(mp2,wp2),...,(mpn,wpn)}Q={q1,q2,...,qn}={(mq1,wq1),(mq2,wq2),...,(mqk,wqk)}

图1

现在要把直方图 P P P变为 Q Q Q,将直方图的每一组看作是一堆土, m j m_j mj表示分组, w j w_j wj表示第 m j m_j mj组中土的质量,变换过程就是一个推土的过程。定义一个距离矩阵 D = [ d i j ] D=[d_{ij}] D=[dij]表示 m p i m_{p_i} mpi m q j m_{q_j} mqj之间的距离,定义 F = [ f i j ] F=[f_{ij}] F=[fij]表示每次从 m p i m_{p_i} mpi搬运 f i j f_{ij} fij的土到 m q j m_{q_j} mqj中。如图1,搬运过程可以看作将 P P P中的的每个分组都独立的分成多个分块 f i j f_{ij} fij,再从 p i p_{i} pi中取出放到 q j q_{j} qj中。那么最小化搬运距离
min ⁡ ∑ i = 1 n ∑ j = 1 k f i j d i j \min {\sum_{i=1}^n{\sum_{j=1}^k{f_{ij}d_{ij}}}} mini=1nj=1kfijdij
并且使得
f i j ≥ 0 , 1 ≤ i ≤ n , 1 ≤ j ≤ k ∑ j = 1 k f i j ≤ w p i , 1 ≤ i ≤ n ∑ i = 1 n f i j ≤ w q j , 1 ≤ j ≤ k ∑ i = 1 n ∑ j = 1 k f i j = min ⁡ { ∑ i = n k w p i , ∑ j = 1 k w q j } f_{ij} \ge 0, 1 \le i \le n, 1 \le j \le k \\ \sum_{j=1}^k{f_{ij}} \le w_{p_i}, 1 \le i \le n \\ \sum_{i=1}^n{f_{ij}} \le w_{q_j}, 1 \le j \le k \\ \sum_{i=1}^n{\sum_{j=1}^k{f_{ij}}} = \min {\left \{\sum_{i=n}^k{w_{p_i}}, \sum_{j=1}^k{w_{q_j}} \right\} } fij0,1in,1jkj=1kfijwpi,1ini=1nfijwqj,1jki=1nj=1kfij=min{i=nkwpi,j=1kwqj}
解出最优的 F F F,就可以计算Earth Mover’s距离(EMD,别问我为啥不翻译这个,推土距离什么的太难听了)如下
E M D = ∑ i = 1 n ∑ j = 1 k f i j d i j ∑ i = 1 n ∑ j = 1 k f i j \mathrm{EMD} = \frac {\sum_{i=1}^n{\sum_{j=1}^k{f_{ij}d_{ij}}}}{\sum_{i=1}^n{\sum_{j=1}^k{f_{ij}}}} EMD=i=1nj=1kfiji=1nj=1kfijdij
EMD其实也就是上面最优搬运距离的期望。关于EMD可以参考图像检索:EMD距离(Earth Mover’s Distance)及纠错

Wasserstein Disstance

Wasserstein距离其实就是Earth Mover’s距离,不过呢,上面提到的Earth Mover’s距离是基于直方图的,离散的。如何用Earth Mover’s距离去衡量两个分布的距离呐?首先,可以看将概率密度函数看作是连续的直方图

图2

那么对数据进行采样得到的样本可以被看作是直方图的统计,概率高的区间采样得到的样本数量也就越多,那么将EMD改写下,WGAN的论文里就提出了Wasserstein距离如下

W ( P r , P g ) = inf ⁡ γ ∈ Π ( P r , P g ) E ( x , y ) ∼ γ [ ∣ ∣ x − y ∣ ∣ ] W(\mathbb{P}_r, \mathbb{P}_g)=\inf_{\gamma \in \Pi(\mathbb{P}_r, \mathbb{P}_g)}{\mathbb{E}_{(x,y)\sim\gamma}[||x-y||]} W(Pr,Pg)=γΠ(Pr,Pg)infE(x,y)γ[xy]

其中, inf ⁡ \inf inf是求解函数的下界, P r \mathbb{P}_r Pr P g \mathbb{P}_g Pg是联合分布 γ ( x , y ) \gamma(x,y) γ(x,y)的边缘分布, Π ( P r , P g ) \Pi(\mathbb{P}_r, \mathbb{P}_g) Π(Pr,Pg)是满足 γ \gamma γ分布的所有样本集合, ( x , y ) (x,y) (x,y)是从真实数据和生成数据中采样得到的样本对, γ ( x , y ) \gamma(x,y) γ(x,y)表明了每次由 x x x y y y搬运的量, ∣ ∣ x − y ∣ ∣ ||x-y|| xy表明了从 x x x y y y的距离。那么 W W W E M D \mathrm{EMD} EMD其实是等价的。作者在WGAN中提出使用Wasserstein距离其实也就是想让生成数据的分布逐渐向真实数据的分布靠拢。


以上是我对Wasserstein距离的理解,当然因为本身EMD涉及到测度学的知识以及一些其他我没学习过的知识,这里只是用我所知道去理解EMD以及Wasserstein距离,可能会有理解问题和不严谨的推导,欢迎指正

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Wasserstein,也被称为Earth Mover's Distance (EMD),是一种衡量两个概率分布间距离的方法。它的基本思想是将一个分布视为一堆土或沙子,另一个分布视为需要将这些土或沙子移动到的目标位置。Wasserstein距离就是将一个分布转换为另一个分布所需的最小成本,其中成本是指每单位质量在空间中移动的代价。Wasserstein距离具有良好的数学性质,因此在机器学习、计算机视觉和自然语言处理等领域得到了广泛的应用。 ### 回答2: Wasserstein是一种数学衡量方式,也称为Wasserstein度量,用于衡量两个概率分布之间的距离。它在数理统计、机器学习和经济学等领域中被广泛应用。 Wasserstein度量是基于传输问题(transportation problem)的概念而发展起来的。它通过计算将一个概率分布转化为另一个概率分布所需的最小运输成本来度量它们之间的距离。这个运输成本被定义为每单位质量移动的距离与移动的质量之积的总和。 与其他常用的距离度量方法(如欧氏距离、KL散度等)相比,Wasserstein度量能够捕捉到概率分布之间更多的结构信息。由于它考虑了具体的分布形状和概率质量的移动,能够更好地处理多模态分布、长尾分布等复杂情况。 Wasserstein度量在数据生成模型、生成对抗网络(GAN)等领域中得到广泛应用。在GAN中,生成器和判别器之间的距离可以通过Wasserstein度量来衡量。这种度量方式有助于生成更真实的样本,并提高了GAN的稳定性。 另外,Wasserstein度量不仅可应用于概率分布的距离度量,而且还可以应用于图像领域中两个图像之间的差异度量。它可以用于图像生成、图像复原、图像配准等任务。 总的来说,Wasserstein度量通过计算概率分布之间的最小运输成本,提供了一种有力的距离度量方法,可以在多个领域中应用于概率分布、图像等的分析和处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值