四篇图像解耦工作简要介绍
1 Variational Interaction Information Maximization for Cross-domain Disentanglement
这篇文章的思想是使用信息论知识,实现跨域图像解耦表示,是基于VAE的一个改进工作。
对于图像对x,y,二者之间既有共享的表征信息,也有不共享的表征信息,这篇文章提了如下图所示的架构,训练一个VAE,同时学到X的特定表征,Y的特定表征以及X与Y之间的共享表征,这一目的通过最大化X与Y的联合分布之间的边际似然函数实现:
在实际应用中直接优化上述公式有些困难,作者还做了其他的简化表达,经过改进后,其损失函数的思想在于,希望每个数据之前特异的特征被编码到各自单独的编码器 Z x , Z y Z_x,Z_y Zx,Zy之中,而二者之间相互共享的表征则被同一个编码器所 Z s Z_s Zs编码,为了实现这一目的(三类表征之间尽量分开),作者引入了互信息思想,希望尽可能最小化 I ( Z s , Z x ) I(Z_s, Z_x) I(Zs,Zx)与 I ( Z s , Z y ) I(Z_s, Z_y) I(Zs,Zy)来实现共享表征与特定表征之间的分离,具体实施时使用了如下图所示的公式:
上面这个公式的第一项的作用在于鼓励 Z s , Z x Z_s, Z_x Zs,Zx联合向共享域X中提供信息(与数据集X保持紧密联系),后两项的目的在于减少二者之间的信息总量。
同时,为了鼓励共享表征和特异表征之间的分离,还构造了如下的互信息正则化项:
上面两个等式中,最大化第一项意味着共享表征中含有来自数据集中提取到的表征,最小化第二项意味着从一个数据集中提取到的表征可以很容易地从另一个数据集中推断出来,意味着这个表征是共享的。
下图中的编码器r是设计来为下游任务(图像翻译和检索)使用的。
解耦效果:
定量评估没有说明其具体的解耦指标得分,主要是对跨域图像检索进行的评估。
2 ICAM: Interpretable Classification via Disentangled Representations and Feature Attribution Mapping
一篇在医学影像领域的解耦应用,主要使用GAN-VAE架构,用来鉴别正常人与病患身体结构的差异性,进行影像诊断。网络框架如下:
简要介绍网络各个组成部分的作用:
内容编码器 E c E^c Ec:编码输入图像对中共享的与类别无关的信息,用鉴别器对编码特征进行判断,希望编码器对图像对的两张图像的共享信息输入趋同的特征;
属性编码器 E a E^a Ea:编码类别相关特征,用来分类;
生成器G:以上述两个编码器输出的特征作为联合输入,目的在于输出受内容特征与属性特征共同控制的图像;
特征映射 A t t r M a p Attr Map AttrMap:定位类间差异区域。
整个框架基于GAN网络,同时引入VAE思想,使用编码器编码的特征作为重构输入而不是随机噪声,在生成虚假图像后再次进行一次图像生成,用二次生成的图像与真实图像之间的差异性作为最根本的损失。通过这一结构,其目的在于挖掘出决定相似图像类别差异的特征,实现类别与无关特征之间的解耦。
3 Elastic-InfoGAN: Unsupervised Disentangled Representation Learning in Class-Imbalanced Data
本文的贡献是用InfoGAN实现对类不平衡数据的解耦。
InfoGAN假设数据服从均匀分布,因此在类别不平衡的数据中解耦表现较差:
这篇文章针对这一问题对InfoGAN做了两个改进,其一是不对数据分布进行假设,而将其视为优化过程中的可学习参数,为了实现这一点,采用Gumbel-Softmax分布作为噪声的潜在分布,该分布有可微参数,因此可以进行更新;其二是通过实验发现InfoGAN在类不平衡信息中很容易学到图像的低级特征(与之前分享的解释对比学习工作的发现有异曲同工之妙),因此这篇文章引入对比学习的思想,对数据进行增强,强迫模型学习身份表示,以抑制类不平衡的影响。
整篇文章的工作重点就是上述的两个方面,其一,用可学习分布代替InfoGAN假设的均匀分布,优化InfoGAN的同时更新分布(左图)。k维类别潜码的采样方法如下:
g i g_i gi代表从Gumbel(0,1)分布采样的样本点,温度参数代表不同类之间的相似程度,假如温度参数很小,将会趋近于onn-hot编码(均匀分布)。
其二,使用简单数据增强方法给数据构造一个正对,同时引入负对,添加一个对比损失项,强迫模型学习身份表示。使用的是常规的对比损失:
最终的损失为InfoLoss和对比损失之和:
定性实验结果:
定量实验结果:
使用NMI和ENT(平均熵,评价同一个潜码生成的图像是否属于同一类;每一个潜码是否只与一个真实类别标签关联;越小越好)作为评价指标:
4 WAE模型
ICLR2021中有两篇论文在WAE(WASSERSTEIN AUTOENCODER)的框架下进行解耦图像生成,WAE是2018年由Google在WGAN的基础上提出来的一种自编码器模型,由于目前没有了解其原理,因此只对这两篇论文在WAE基础上的改进进行简单的介绍。
4.1 Learning disentangled representations with the Wasserstein Autoencoder
想法是把β-TCVAE的构造移植到WAE模型中,重点在于利用TCVAE的loss对WAE进行改进:
TCWAE loss:
β-TCVAE loss:
对比两项损失,可以发现TCWAE具有与β-TCVAE几乎相同的loss函数,区别在于没有最后一个互信息项,以及在第一项的度量上有所差异。
效果:
4.2 DISENTANGLED RECURRENT WASSERSTEIN AUTOENCODER
第二篇WAE相关的文章是将WAE应用于时序图像解耦的工作,用来捕捉时序图像上的相关信息,实现静态因子和动态因子的解耦。
上图是这篇文章提出了来的模型的解耦效果,每一行都代表一个时序(对应不同表情)。