一、方法介绍
本文是参照Arbitrary Style Transfer With Style-Attentional Networks[1]中图像风格迁移的方法去实现视频风格迁移。其工作的主要贡献为:
1)提出了SANet去灵活匹配风格特征和内容特征在语义上相近的部分;
2)针对SANet和decoder组成的网络提出了新的损失函数;
3)风格化图像的效率以及质量都很高。
源码:https://github.com/GlebBrykin/SANET
1.1总体结构
图1是论文[1]方法的总体框架。
图1 算法框架
从图1中看出该算法主要由编码器、SANet以及解码器构成。编码器使用的是预训练好的VGG19,用来提取内容图像和风格图像的特征,SANet负责将来自VGG19的Style feature map和Content feature map根据其注意力进行结合,而解码器的网络结构则是与编码器所对称的,可以利用结合后的feature map进行图像的重建,得到的图像即为风格化后的图像。本算法利用了VGG19的Relu4_1和Relu5_1两个网络层输出的特征去进行结合,这是因为只使用Relu4_1可以很好保留风格图像和内容图像的全局结构,但其局部风格显示效果不好。而Relu5_1对其局部风格表现的效果较好,因为其接受域更大。所以利用Relu4_1和Relu5_1输出的特征都利用两个SANet结合后再整合得到最终的风格图像。其效果展示见图2。
图2 不同网络层特征进行风格化的效果对比
1.2 SANet
下面对算法中建立的SANet进行简单的介绍,其网络结构见图3。