在介绍我们这次的论文之前,我们先来思考一些问题:
- 在NST中,什么是风格图像中的风格信息? 个人理解,风格图像中的风格信息指的是风格图像中的色彩、纹理、笔触等因素,这些因素的不同组合使得图像呈现出不同的风格信息。
- 那么,再进一步的思考,我们怎样提取这些风格图像中的风格信息呢? 在深度学习没有出现之前,大多数是利用图像处理和滤波来实现的,例如高斯滤波或者双边滤波;有了深度学习以后,开始从图像中提取高维的特征信息来表示风格信息,例如2015年Gatys提出利用Gram矩阵来表示图像中的风格信息,并且这一想法使其成为NST的基石和开山之作。
- 那么,再思考一个问题,为什么Gram矩阵可以表示图像中的风格信息? 推荐给大家一篇博客:(高能预警!)为什么Gram矩阵可以代表图像风格?带你揭开图像风格迁移的神秘面纱!,我觉得博主对于这个问题分析比较透彻,伙伴们可以去学习一下。简单来说,图像的风格迁移是在不断缩小生成图像和内容图像,生成图像和风格图像的距离,那么对于内容图像和风格图像来说,需要忽略特征的位置,减小分布的差异。也就是说,图像的风格迁移可以看作内容图像到风格图像的分布对齐过程。更进一步地,如果我们将内容图像集合和风格图像集合看作两个域,那么这就是域迁移的问题了。
既然对风格信息有了基础的了解,那么大佬们通过其中的一个小痛点(笔触的大小影响风格迁移的效果么?) 来展开这篇论文。这个项目的链接大佬们也同时给出了【项目链接】,发表于2018ECCV。此外,打个小小的广告,我们关于NST的论文和代码介绍放在了专栏里,感兴趣伙伴们可以自行前往食用深度学习艺术与专栏。
本篇论文地址:https://arxiv.org/abs/1802.07101
论文代码地址:https://github.com/LouieYang/stroke-controllable-fast-style-transfer
论文项目地址:https://yongchengjing.com/StrokeControllable
0. Pre-analysis
论文在正式介绍自己的网络之前,为了使自己的论证更有力(这可能就是发顶会的严谨性吧),利用不同的笔触(实际上是内容图像和风格图像的比例不同)证明了风格图像比例大小确实会产生不同的风格迁移效