ZM-Net: Real-time Zero-shot Image Manipulation Network 论文理解-CSDN博客

本文链接：https://blog.csdn.net/wyl1987527/article/details/76559791

ZM-Net: Real-time Zero-shot Image Manipulation Network 论文理解

这篇论文提出了Zero-shot Manipulation Net（ZM-Net），这个网络由两个子网络网络组成，对图像变化网络和参数网络同时优化。其思想是任意一幅图像都根据它的参数模型得到的参数进行处理，这个参数模型是专门根据不同的输入图像信息生成其对应的重要参数。这里使用的这种方式和之前学过的Instance normolization(IN)以及condition Instance normolization（CIN）原理相似，这里称为动态实例归一化（DIN）。正是由于这个动态实例化才可以对任意图像进行处理，同时还能生成任何位见过的信息图像等。本篇论文的创新点就是DIN，以及在此基础上提出的ZM-Net。

网络结构

下面展示了ZM-Net的两种网络结构。两种结构都是由两个子网络组成，分别是图像变换网络（TNet）和参数网络（PNet），区别是PNet的形式，左边的是串联的方式，右边的并行的方式。

图像变换网络TNet：和之前采用的图像变换网络结构基本一致（Justin等人），这里区别是采用了动态实例归一化（DIN），正式因为这个点才实现任意参考信息的变换。这里没有采用直接动态生成TNet的filter的原因很明显，因为每层的filters有很多个参数，这样会直接造成效率比较低；而是采用了在每个卷积层之后使用DIN的方式，只要通过PNet网络生成每层对应的缩放和移动参数。这里缩放和移动就是TNet网络每层的重要参数。具体使用计算方法如下：

参数网络PNet：根据不同的输入参考信息（譬如风格图片）生成TNet的关键参数。因为参数是根据任意给定的参考信息生成的，所以我们的ZM-Net网络不需要像之前那样训练存储很多不同的网络参数来区分不同的参考信息，譬如 CIN；而且没有参考信息，ZM-Net也能够执行一些图像处理。PNet可以是CNN、MLP或者是RNN。

TNet和PNet之间的连接是非对称的，因为输入图片和参考信息有可能是完成不同，即输入信息和参考信息是不可互换的。