ZM-Net: Real-time Zero-shot Image Manipulation Network 论文理解

ZM-Net: Real-time Zero-shot Image Manipulation Network 论文理解

      这篇论文提出了Zero-shot Manipulation Net(ZM-Net),这个网络由两个子网络网络组成,对图像变化网络和参数网络同时优化。其思想是任意一幅图像都根据它的参数模型得到的参数进行处理,这个参数模型是专门根据不同的输入图像信息生成其对应的重要参数。这里使用的这种方式和之前学过的Instance normolization(IN)以及condition Instance normolization(CIN)原理相似,这里称为动态实例归一化(DIN)。正是由于这个动态实例化才可以对任意图像进行处理,同时还能生成任何位见过的信息图像等。本篇论文的创新点就是DIN,以及在此基础上提出的ZM-Net。


网络结构

      下面展示了ZM-Net的两种网络结构。两种结构都是由两个子网络组成,分别是图像变换网络(TNet)和参数网络(PNet),区别是PNet的形式,左边的是串联的方式,右边的并行的方式。

      图像变换网络TNet:和之前采用的图像变换网络结构基本一致(Justin等人),这里区别是采用了动态实例归一化(DIN),正式因为这个点才实现任意参考信息的变换。这里没有采用直接动态生成TNet的filter的原因很明显,因为每层的filters有很多个参数,这样会直接造成效率比较低;而是采用了在每个卷积层之后使用DIN的方式,只要通过PNet网络生成每层对应的缩放和移动参数。这里缩放和移动就是TNet网络每层的重要参数。具体使用计算方法如下:



      参数网络PNet:根据不同的输入参考信息(譬如风格图片)生成TNet的关键参数。因为参数是根据任意给定的参考信息生成的,所以我们的ZM-Net网络不需要像之前那样训练存储很多不同的网络参数来区分不同的参考信息,譬如 CIN;而且没有参考信息,ZM-Net也能够执行一些图像处理。PNet可以是CNN、MLP或者是RNN。

      TNet和PNet之间的连接是非对称的,因为输入图片和参考信息有可能是完成不同,即输入信息和参考信息是不可互换的。




Serial PNet:可以使用一个和TNet相似网络结构的CNN生成层l的缩放和平移参数。

Parallel PNet:生成图片的质量和效率相比Serial稍差些。




实验结果


1. ZM-Net的实验结果

       第一列是content image,第一行的第二列是参与训练的style image,第一行的其余都是没有参与训练的style images。 第二行是训练了10个风格模型的ZM-Net,第三行是训练了20938个风格的模型ZM-Net,最后一行是Justion的前向转换反馈网络出来的结果。


      从实验结果可以看出:

1)Justion的前向网络只对训练的style image 生成正确的图片,输入其它的style image 没有任何影响,因为这个网络只有content image输入,style image不输入,它的信息是通过训练时包含在网络中了。

2)20938个风格的模型ZM-Net的到的风格化效果更好。

3)10个风格进行训练得到的模型泛化能力比较差,即使输入了style image信息,出来的效果也不是很好。





2.DIN的实验结果

       DIN在layer 1~3时,生成content的细节信息(边缘等),4~6调整颜色,7~9转换相关纹理特征。





3.训练时损耗的收敛速度

1)CIN的初始训练/测试损耗都比FST的低不少。ZM-Net相比CIN还可以更低。

2)ZM-Net的收敛速度最快,收敛时损耗也最小。





4.其它参考信息的实验(文字)

      训练网络中用noon和afternoon作为参考信息,测试时使用morning和afternoon。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值