四篇图像解耦工作简要介绍


四篇图像解耦工作简要介绍

1 Variational Interaction Information Maximization for Cross-domain Disentanglement

这篇文章的思想是使用信息论知识,实现跨域图像解耦表示,是基于VAE的一个改进工作。

对于图像对x,y,二者之间既有共享的表征信息,也有不共享的表征信息,这篇文章提了如下图所示的架构,训练一个VAE,同时学到X的特定表征,Y的特定表征以及X与Y之间的共享表征,这一目的通过最大化X与Y的联合分布之间的边际似然函数实现:

在实际应用中直接优化上述公式有些困难,作者还做了其他的简化表达,经过改进后,其损失函数的思想在于,希望每个数据之前特异的特征被编码到各自单独的编码器 Z x , Z y Z_x,Z_y Zx,Zy之中,而二者之间相互共享的表征则被同一个编码器所 Z s Z_s Zs编码,为了实现这一目的(三类表征之间尽量分开),作者引入了互信息思想,希望尽可能最小化 I ( Z s , Z x ) I(Z_s, Z_x) I(Zs,Zx) I ( Z s , Z y ) I(Z_s, Z_y) I(Zs,Zy)来实现共享表征与特定表征之间的分离,具体实施时使用了如下图所示的公式:

上面这个公式的第一项的作用在于鼓励 Z s , Z x Z_s, Z_x Zs,Zx联合向共享域X中提供信息(与数据集X保持紧密联系),后两项的目的在于减少二者之间的信息总量。

同时,为了鼓励共享表征和特异表征之间的分离,还构造了如下的互信息正则化项:

上面两个等式中,最大化第一项意味着共享表征中含有来自数据集中提取到的表征,最小化第二项意味着从一个数据集中提取到的表征可以很容易地从另一个数据集中推断出来,意味着这个表征是共享的。

下图中的编码器r是设计来为下游任务(图像翻译和检索)使用的。

img;

解耦效果:

定量评估没有说明其具体的解耦指标得分,主要是对跨域图像检索进行的评估。

2 ICAM: Interpretable Classification via Disentangled Representations and Feature Attribution Mapping

一篇在医学影像领域的解耦应用,主要使用GAN-VAE架构,用来鉴别正常人与病患身体结构的差异性,进行影像诊断。网络框架如下:

简要介绍网络各个组成部分的作用:

内容编码器 E c E^c Ec:编码输入图像对中共享的与类别无关的信息,用鉴别器对编码特征进行判断,希望编码器对图像对的两张图像的共享信息输入趋同的特征;

属性编码器 E a E^a Ea:编码类别相关特征,用来分类;

生成器G:以上述两个编码器输出的特征作为联合输入,目的在于输出受内容特征与属性特征共同控制的图像;

特征映射 A t t r M a p Attr Map AttrMap:定位类间差异区域。

整个框架基于GAN网络,同时引入VAE思想,使用编码器编码的特征作为重构输入而不是随机噪声,在生成虚假图像后再次进行一次图像生成,用二次生成的图像与真实图像之间的差异性作为最根本的损失。通过这一结构,其目的在于挖掘出决定相似图像类别差异的特征,实现类别与无关特征之间的解耦。

3 Elastic-InfoGAN: Unsupervised Disentangled Representation Learning in Class-Imbalanced Data

本文的贡献是用InfoGAN实现对类不平衡数据的解耦。

InfoGAN假设数据服从均匀分布,因此在类别不平衡的数据中解耦表现较差:

这篇文章针对这一问题对InfoGAN做了两个改进,其一是不对数据分布进行假设,而将其视为优化过程中的可学习参数,为了实现这一点,采用Gumbel-Softmax分布作为噪声的潜在分布,该分布有可微参数,因此可以进行更新;其二是通过实验发现InfoGAN在类不平衡信息中很容易学到图像的低级特征(与之前分享的解释对比学习工作的发现有异曲同工之妙),因此这篇文章引入对比学习的思想,对数据进行增强,强迫模型学习身份表示,以抑制类不平衡的影响。

整篇文章的工作重点就是上述的两个方面,其一,用可学习分布代替InfoGAN假设的均匀分布,优化InfoGAN的同时更新分布(左图)。k维类别潜码的采样方法如下:

g i g_i gi代表从Gumbel(0,1)分布采样的样本点,温度参数代表不同类之间的相似程度,假如温度参数很小,将会趋近于onn-hot编码(均匀分布)。

其二,使用简单数据增强方法给数据构造一个正对,同时引入负对,添加一个对比损失项,强迫模型学习身份表示。使用的是常规的对比损失:

最终的损失为InfoLoss和对比损失之和:

定性实验结果:

定量实验结果:

使用NMI和ENT(平均熵,评价同一个潜码生成的图像是否属于同一类;每一个潜码是否只与一个真实类别标签关联;越小越好)作为评价指标:

4 WAE模型

ICLR2021中有两篇论文在WAE(WASSERSTEIN AUTOENCODER)的框架下进行解耦图像生成,WAE是2018年由Google在WGAN的基础上提出来的一种自编码器模型,由于目前没有了解其原理,因此只对这两篇论文在WAE基础上的改进进行简单的介绍。

4.1 Learning disentangled representations with the Wasserstein Autoencoder

想法是把β-TCVAE的构造移植到WAE模型中,重点在于利用TCVAE的loss对WAE进行改进:

TCWAE loss:

β-TCVAE loss:

对比两项损失,可以发现TCWAE具有与β-TCVAE几乎相同的loss函数,区别在于没有最后一个互信息项,以及在第一项的度量上有所差异。

效果:

4.2 DISENTANGLED RECURRENT WASSERSTEIN AUTOENCODER

第二篇WAE相关的文章是将WAE应用于时序图像解耦的工作,用来捕捉时序图像上的相关信息,实现静态因子和动态因子的解耦。

4.4

上图是这篇文章提出了来的模型的解耦效果,每一行都代表一个时序(对应不同表情)。

  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
华为鸿蒙HarmonyOS开发整理资料汇总,共38份。 1学前必读:HarmonyOS学习资源主题分享 2学前必读:OpenHarmony-联盟生态资料合集 3-1.HarmonyOS概述:技术特性 3-2.HarmonyOS概述:开发工具与平台 3-3.HarmonyOS概述:系统安全 3-4.HarmonyOS概述:系统定义 3-5.HarmonyOS概述:下载与安装软件 3-6.HarmonyOS概述:应用开发基础知识 3-7.HarmonyOS概述:最全HarmonyOS文档和社区资源使用技巧 4-1.生态案例:【开发者说】重塑经典,如何在HarmonyOS手机上还原贪吃蛇游戏 4-2.生态案例:HarmonyOLabo涂鸦鸿蒙亲子版 4-3.生态案例:HarmonyOS分镜头APP案例 4-4.生态案例:HarmonyOS时光序历史学习案例 4-5.生态案例:HarmonyOS先行者说 宝宝巴士携手HarmonyOS共同打造儿童教育交互新体验 4-6.生态案例:HarmonyOS智能农场物联网连接实践 4-7.生态案例:分布式开发样例,带你玩转多设备 4-8.生态案例:华为分布式日历应用开发实践 5-1.【Codelab】HarmonyOS基于图像模块实现图库图片的四种常见操作 5-2.【CodeLab】手把手教你创建第一个手机“Hello World” 5-3.【Codelab】如此简单!一文带你学会15个HarmonyOS JS组件 5-4.【Codelab】懒人“看”书新法—鸿蒙语音播报,到底如何实现? 5-5.【Codelab】基于AI通用文字识别的图像搜索,这波操作亮了 5-6.【Codelab】开发样例概览 6-1.技术解读之HarmonyOS轻量JS开发框架与W3C标准差异分析 6-2.技术解读之HarmonyOS驱动加载过程分析 6-3.技术解读之HarmonyOS组件库使用实践 6-4.技术解读之华为架构师解读:HarmonyOS低时延高可靠消息传输原理 6-5.技术解读之解密HarmonyOS UI框架 6-6.技术解读之如何从OS框架层面实现应用服务功能解耦 7-1.常见问题之HarmonyOS元服务的设计与开发解析 7-2.常见问题之Java开发 7-3.常见问题之JS开发 7-4.常见问题之模拟器登录 7-5.常见问题之模拟器运行 7-6.常见问题之如何使用JsJava开发HarmonyOS UI 7-7.常见问题之应用配置 7-8.常见问题之预览器运行 8【视频合集】入门到进阶视频学习资料合集30+
学前必读:HarmonyOS学习资源主题分享 学前必读:OpenHarmony-联盟生态资料合集 常见问题(JAVA、JS开发模拟器、模拟器运行) 1.常见问题之HarmonyOS元服务的设计与开发解析 2.常见问题之Java开发 3.常见问题之JS开发 4.常见问题之模拟器登录 5.常见问题之模拟器运行 6.常见问题之如何使用JsJava开发HarmonyOS UI 7.常见问题之应用配置 8.常见问题之预览器运行 技术解读(框架、场景案例解读) 1.技术解读之HarmonyOS轻量JS开发框架与W3C标准差异分析 2.技术解读之HarmonyOS驱动加载过程分析 3.技术解读之HarmonyOS组件库使用实践 4.技术解读之华为架构师解读:HarmonyOS低时延高可靠消息传输原理 5.技术解读之解密HarmonyOS UI框架 6.技术解读之如何从OS框架层面实现应用服务功能解耦 生态案例(游戏、农业、教育) 1.生态案例:【开发者说】重塑经典,如何在HarmonyOS手机上还原贪吃蛇游戏 2.生态案例:HarmonyOLabo涂鸦鸿蒙亲子版 3.生态案例:HarmonyOS分镜头APP案例 4.生态案例:HarmonyOS时光序历史学习案例 5.生态案例:HarmonyOS先行者说 宝宝巴士携手HarmonyOS共同打造儿童教育交互新体验 6.生态案例:HarmonyOS智能农场物联网连接实践 7.生态案例:分布式开发样例,带你玩转多设备pptx 8.生态案例:华为分布式日历应用开发实践 HarmonyOS概述(官网资料解读) 1.HarmonyOS概述:技术特性 2.HarmonyOS概述:开发工具与平台 3.HarmonyOS概述:系统安全 4.HarmonyOS概述:系统定义 5.HarmonyOS概述:下载与安装软件 6.HarmonyOS概述:应用开发基础知识 7.HarmonyOS概述:最全HarmonyOS文档和社区资源使用技巧 HarmonyOS基础入门必看视频课 【视频合集】入门到进阶视频学习资料合集30+ 【直播回顾】HarmonyOS应用开发系列课基础篇_从零开始开发HarmonyOS应用 【直播回顾】HarmonyOS应用开发系列课基础篇_如何让HarmonyOS应用调试速度翻倍 【直播回顾】HarmonyOS应用开发系列课基础篇_HarmonyOS分布式应用开发实践 运行第一个HarmonyOS Demo应用 N个Codelab案例轻松入门 1.【Codelab】HarmonyOS基于图像模块实现图库图片的四种常见操作 2.【CodeLab】手把手教你创建第一个手机“Hello World” 3.【Codelab】如此简单!一文带你学会15个HarmonyOS JS组件 4.【Codelab】懒人“看”书新法—鸿蒙语音播报,到底如何实现? 5.【Codelab】基于AI通用文字识别的图像搜索,这波操作亮了 6.【Codelab】开发样例概览

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值