Multi-style Generative Network for Real-time Transfer
创新点
(1)提出了一个Inspiration layer,用于匹配风格图片的特征统计信息(Gram 矩阵)并保留content的内容。
(2)提出了一个新的前向网络,采用了残差网络。主要点在多个尺度上(4个尺度)匹配特征统计信息,与style swap和AdaIN不同,这些方法一般就只在一个尺度上面做特征统计信息匹配。
Inspiration layer
这篇论文中主要用它来匹配图片的风格在多尺度的特征统计信息。主要采用了如下公式对content 得到的feature maps 进行基于目标风格的调整,通过训练整个网络使用梯度下降求解的方式,不断更新矩阵W。得到W矩阵之后在前向网络中使用。
是Content调整后的feature maps,
是指输入图片x在第i个尺度的feature maps,
是代表reshape操作。
网络结构
此网络结构中主要有两个部分:MSG-Net和损耗网络。
损耗网络和之前一般的一致,是采用了用于图像识别预训练好的vgg网络。
MSG-Net 主要涉及了两个子网络:Descriptive Network 和 Transformation Network。
Descriptive Network是使用一个预训练好的vgg网络,此网络可以表示用于内容的语义信息以及风格信息。图像的语义内容可以直接用层的feature maps经过激励之后的激励值表示,越高层的特征表现越抽象,越能表现差异性,层数越低通常表示的是相对更通用性的信息,纹理、颜色等。图像的风格信息可以直接通过层的feature maps的gram矩阵表示。这里主要用它来得到style image在多个尺度上的feature maps,从而计算feature 的统计信息gram 矩阵。
Transformation Network 由编码和解码部分组成,先将图像从RGB空间转成feature 空间,在每个relu层之后进行style 特征统计信息匹配。具体的网络结构如下图所示。
下采样采用卷积的方式,上采样采用分数步长卷积。采用反射填充避免边缘的假边现象。在卷积层、分数步长卷积、Inspiration层之后都使用Instance normalization和Relu激励。
损耗函数
损耗函数和一般使用的是一致的。具体如下:
感悟
这篇论文这么处理之后,是否可以考虑任意图片的风格迁移,若训练时采用的是很多张style images,是否就支持了style images?
论文
https://arxiv.org/pdf/1703.06953.pdf
代码
https://github.com/zhanghang1989/MSG-Net
参考资料
1.http://computervisionrutgers.github.io/MSG-Net/