【翻译】AdaIN：Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization

玳宸

已于 2022-08-19 11:53:49 修改

阅读量545

点赞数

分类专栏：论文翻译文章标签：风格迁移

于 2022-08-16 22:26:15 首次发布

本文链接：https://blog.csdn.net/zeroheitao/article/details/126374745

版权

论文翻译专栏收录该内容

18 篇文章 3 订阅

订阅专栏

在这里插入图片描述

文章目录

Abstract
1、绪论
2、相关工作
3、背景介绍
4、解释实例归一化（IN）
5、自适应实例归一化（AdaIN）
6、实验设置
- 6.1. 构建
- 6.2. 训练
7、结果
8、讨论与结论

Abstract

Gatys等人最近引入了一种神经算法，以另一图像的风格渲染内容图像，实现所谓的风格转移。然而，他们的框架工作需要一个缓慢的迭代优化过程，这限制了其实际应用。有人提出用前馈神经网络进行快速逼近，以加快神经风格转移的速度。不幸的是，速度的提高是有代价的：网络通常被绑在一套固定的风格上，不能适应任意的新风格。在本文中，我们提出了一个简单而有效的方法，首次实现了实时的任意风格转移。我们的方法的核心是一个新颖的自适应实例规范化（AdaIN）层，它将内容特征的平均值和方差与风格特征的平均值和方差相一致。我们的方法实现了与现有最快的方法相媲美的速度，而且不受预先定义的风格集的限制。此外，我们的方法允许灵活的用户控制，如内容-风格权衡、风格插值、颜色和空间控制，所有这些都使用一个前馈神经网络。

1、绪论

Gatys等人的开创性工作[16]表明，深度神经网络（DNNs）不仅可以编码图像的内容，还可以编码图像的风格信息。此外，图像的风格和内容在某种程度上是可分离的：在保留图像内容的同时，有可能改变其风格。[16]的风格转移方法足够灵活，可以结合任意图像的内容和风格。然而，它依赖于一个优化过程，其速度非常慢。

人们在加速神经风格转移方面做了大量的工作。[24, 51, 31]试图训练前馈神经网络，通过单一的for-ward pass来完成风格化。大多数前馈方法的一个主要限制是，每个网络都被限制在一个单一的风格。最近有一些作品解决了这个问题，但它们要么仍然局限于有限的样式集[11, 32, 55, 5]，要么比单一样式转移方法慢得多[6]。

在这项工作中，我们提出了第一个神经风格转移算法，解决了这个基本的灵活性速度困境。我们的方法可以实时转移任意的新风格，结合了基于优化的框架[16]的灵活性和类似于最快的前馈方法[24, 52]的速度。我们的方法受到了实例规范化（IN）[52, 11]层的启发，它在前馈式传输中的效果令人惊讶。为了解释实例归一化的成功，我们提出了一个新的解释，即实例归一化通过归一化特征统计来执行风格归一化，这些特征统计已经被发现携带了一个图像的风格信息[16, 30, 33]。在我们的解释的激励下，我们引入了对IN的简单扩展，即自适应实例规范化（AdaIN）。给定一个内容输入和一个风格输入，AdaIN简单地调整了内容输入的平均值和方差，使其与风格输入相匹配。通过实验，我们发现AdaIN通过转移特征统计数据有效地结合了前者和后者的风格。然后学习一个解码器网络，通过将AdaIN的输出倒转回图像空间来生成最终的风格化图像。我们的方法比[16]快了近三个数量级，而且没有牺牲将输入转移到任意的新样式的灵活性。此外，我们的方法在运行时提供丰富的用户控制，而不需要对训练过程进行任何修改。

2、相关工作

风格转移。风格转移的问题起源于非摄影现实的渲染[28]，并与纹理合成和转移密切相关[13, 12, 14]。一些早期的方法包括线性滤波响应的直方图匹配[19]和非参数采样[12, 15]。这些方法通常依赖于低级别的统计数字，而且不能捕捉语义结构。Gatys等人[16]通过在DNN的卷积层中匹配特征统计数据，首次展示了令人印象深刻的风格转移结果。最近，有人提出了对[16]的若干改进。Li和Wand[30]在深度特征空间中引入了一个基于马尔科夫随机场（MRF）的框架来执行局部模式。Gatys等人[17]提出了控制颜色保存、空间位置和风格转移规模的方法。Ruder等人[45]通过施加时间限制，提高了视频风格传输的质量。

Gatys等人[16]的框架是基于一个缓慢的优化过程，迭代更新图像以最小化内容损失和由损失网络计算的风格损失。即使使用现代的GPU，它也需要几分钟的时间来收敛。因此，在移动应用中的设备上处理速度太慢，不实用。一个常见的变通方法是用一个前馈神经网络取代优化过程，该网络被训练成最小化相同的目标[24, 51, 31]。这些前馈式转移方法比基于优化的方法快三个数量级，为实时应用打开了大门。Wang等人[53]用多分辨率结构增强了前馈式传输的颗粒度。Ulyanov等人[52]提出了提高生成样本的质量和多样性的方法。然而，上述前馈方法的局限性在于，每个网络都被束缚在一个固定的风格上。为了解决这个问题，Dumoulin等人[11]引入了一个能够编码32种风格及其插值的单一网络。在我们的工作中，Li等人[32]提出了一个前馈架构，可以合成多达300种纹理和转换16种风格。但是，上述两种方法仍然不能适应训练期间没有观察到的任意风格。

最近，Chen和Schmidt[6]介绍了一种前馈方法，该方法可以通过风格互换层来转移任意风格。鉴于内容和风格图像的特征激活，风格互换层以逐个补丁的方式将内容特征替换为最匹配的风格特征。然而，他们的风格互换层创造了一个新的计算瓶颈：对于512×512的输入图像，95%以上的计算都花在风格互换上。我们的方法也允许任意的风格转换，同时比[6]快1-2个数量级。

风格转换的另一个核心问题是使用何种风格损失函数。Gatys等人[16]的原始框架是通过匹配特征激活之间的二阶统计学来匹配风格的，由Gram 矩阵捕获。其他有效的损失函数也被提出，如MRF损失[30]，对抗性损失[31]，直方图损失[54]，CORAL损失[41]，MMD损失[33]，以及通道均值和方差之间的距离[33]。请注意，所有上述损失函数的目的是在风格图像和合成图像之间匹配一些特征统计。

深度生成性图像建模。有几个用于图像生成的替代框架，包括变化的自动编码器[27]、自动回归模型[40]和生成对抗网络（GANs）[18]。值得注意的是，GANs已经取得了最令人印象深刻的视觉质量。对GAN框架的各种改进已经被提出，如条件生成[43，23]，多阶段处理[9，20]，以及更好的训练目标[46，1]。GANs也被应用于风格转移[31]和跨领域的图像生成[50, 3, 23, 38, 37, 25] 。

3、背景介绍

3.1. 批量归一化（BN）

Ioffe和Szegedy[22]的开创性工作引入了批量归一化（BN）层，通过归一化特征统计，大大缓解了前馈网络的训练。批量归一化层最初是为了加速判别性网络的训练，但在生成性图像建模中也被发现很有效[42]。给定一个输入批次x∈RN×C×H×W，BN将每个单独的特征通道的平均值和标准差归一化：
在这里插入图片描述
其中，γ、β∈RC是从数据中学习的仿射参数；μ(x)、σ(x)∈RC是平均数和标准差，在每个特征通道的批次大小和空间维度上独立地计算：

BN在训练过程中使用小批量的统计数据，在推理过程中用流行的统计数据取代它们，引入了训练和推理之间的差异。最近提出了批量再归一化[21]，通过在训练期间逐渐使用流行的统计数据来解决这个问题。作为BN的另一个有趣的应用，Li等人[34]发现BN可以通过重新计算目标域中的流行统计数据来缓解域的转移。最近，人们提出了几种替代性的归一化方案，以将BN的有效性扩展到递归架构[35, 2, 47, 8, 29, 44] 。

3.2. 实例归一化（IN）

在最初的前馈风格化方法[51]中，风格转移网络在每个卷积层之后包含一个BN层。令人惊讶的是，Ulyanov等人[52]发现，仅仅通过用IN层取代BN层就可以实现显著的改进：
在这里插入图片描述
与BN层不同，这里的μ(x)和σ(x)是对每个通道和每个样本独立进行跨空间维度的计算：

另一个区别是，IN层在测试时的应用是不变的，而BN层通常是用群体统计来取代小批量统计。

3.3. 条件性实例归一化（CIN）

Dumoulin等人[11]提出了一个条件实例规范化（CIN）层，而不是学习单一的仿生参数γ和β，该层为每种风格s学习不同的参数γs和βs：
在这里插入图片描述
在训练过程中，一个风格图像和它的索引s是从一个固定的风格集合s∈{1，2，…，S}中随机选择的。(在他们的实验中S=32)。然后，该图像被一个风格转移网络处理，其中相应的γs和βs被用于CIN层。令人惊讶的是，通过在IN层使用相同的卷积参数和不同的仿生参数，该网络可以生成完全不同风格的图像。

与没有归一化层的网络相比，带有CIN层的网络需要2FS的额外参数，其中F是网络中特征图的总数量[11]。由于额外参数的数量与样式的数量呈线性关系，因此，将他们的方法扩展到对大量样式（如数万种）进行建模是一个挑战。此外，他们的方法不能适应任意的新风格而不重新训练网络。

4、解释实例归一化（IN）

尽管（条件）实例规范化取得了巨大成功，但它们在风格迁移方面特别有效的原因仍然难以捉摸。 Ulyanov等人[52]将IN的成功归功于它对内容图像的对比度的不变性。然而，IN是在特征空间发生的，因此它应该比像素空间的简单对比度归一化有更深远的影响。也许更令人惊讶的是，IN中的仿生参数可以完全改变输出图像的风格。

众所周知，DNN的卷积特征统计可以捕捉图像的风格[16, 30, 33]。虽然Gatys等人[16]使用二阶统计量作为他们的优化目标，但Li等人[33]最近表明，匹配许多其他统计量，包括通道均值和方差，也对风格转移有效。在这些观察的启发下，我们认为实例规范化通过规范化特征统计，即均值和方差，执行一种风格规范化的形式。尽管DNN在[16, 33]中充当了图像描述符，但我们认为生成器网络的特征统计也可以控制生成图像的风格。

我们运行改进的纹理网络[52]的代码来执行单式转移，有IN或BN层。正如预期的那样，带有IN的模型比BN的模型收敛得更快（图1（a））。为了测试[52]中的解释，我们随后通过对亮度变化进行直方图均衡化，将所有训练图像归一到相同的对比度。如图1（b）所示，IN仍然有效，说明[52]的解释是不完整的。为了验证我们的假设，我们使用[24]提供的预先训练好的风格转移网络将所有训练图像归一到相同的风格（与目标风格不同）。根据图1©，当图像已经被归一化时，IN带来的改进变得更小。这种差距可以解释为[24]的风格规范化并不完美。另外，在风格规范化的图像上训练的BN模型可以和在原始图像上训练的IN模型一样快速收敛。我们的结果表明，IN确实进行了一种风格归一化。

在这里插入图片描述
图1. 为了理解IN在风格转换中的有效性，我们用（a）MS-COCO[36]中的原始图像，（b）对比度归一化的图像，以及（c）使用预先训练好的风格转换网络[24]的风格归一化图像来训练IN模型和BN模型。即使所有的训练图像都被归一化为相同的对比度，IN带来的改进仍然很明显，但当所有的图像都被（近似）归一化为相同的风格时，改进就小得多。我们的结果表明，IN执行的是一种风格归一化。

由于BN对一批样本而不是单个样本的特征统计进行了归一化处理，因此可以直观地理解为将一批样本归一化为以单个样式为中心的统计。然而，每个单一的样本仍然可能有不同的风格。当我们想把所有的图像转移到相同的风格时，这是不可取的，就像最初的前馈风格转移算法[51]那样。尽管卷积层可能会学习弥补批次内的风格差异，但它给训练带来了额外的挑战。另一方面，IN可以将每个样本的风格归一到目标风格。由于网络的其他部分可以专注于内容操作，而放弃原始风格的形成，因此训练变得更加容易。CIN成功背后的原因也很清楚：不同的仿射参数可以将特征统计量归一到不同的值，从而将输出图像归一到不同的风格。

5、自适应实例归一化（AdaIN）

如果IN将输入规范化为由仿生参数指定的单一风格，那么是否有可能通过使用自适应仿生变换使其适应任意给定的风格？在这里，我们提出一个对IN的简单扩展，我们称之为自适应实例规范化（AdaIN）。AdaIN接收一个内容输入x和一个风格输入y，并简单地调整x的通道的平均值和方差以匹配y的平均值和方差。与 BN、IN 或 CIN 不同，AdaIN 没有可学习的仿射参数。相反，它从风格输入中自适应地计算仿射参数：
在这里插入图片描述
其中，我们只是用σ(y)对归一化的内容输入进行缩放，并用μ(y)对其进行移动。与IN类似，这些统计数字是跨空间位置计算的。

直观地说，让我们考虑一个检测某种风格的笔触的特征通道。具有这种笔触的风格图像会对该特征产生较高的平均激活度。AdaIN产生的输出将对这一特征产生同样高的平均激活，同时保留了内容图像的空间结构。笔触特征可以通过前馈解码器倒置到图像空间，与[10]类似。这个特征的变化可以编码更微妙的风格信息，这些信息也被转移到AdaIN的输出和最终的输出图像。

简而言之，AdaIN通过转移特征统计，特别是通道平均数和方差，在特征空间中进行风格转移。我们的AdaIN层扮演着与[6]中提出的风格互换层类似的角色。虽然风格互换操作非常耗时和耗内存，但我们的AdaIN层和IN层一样简单，几乎不增加任何计算成本。

6、实验设置

图2显示了我们基于提议的AdaIN层的风格转换网的概况。代码和预先训练好的模型（在Torch 7[7]中）可在以下网站获得：https://github.com/xunhuang1995/AdaIN-style

在这里插入图片描述
图2. 我们的风格转换算法的概述。我们使用一个固定的VGG-19网络的前几层来编码内容和风格图像。一个AdaIN层被用来在特征空间中进行风格转换。一个解码器被用来将AdaIN的输出反转到图像空间。我们使用相同的VGG编码器来计算内容损失Lc（公式12）和风格损失Ls（公式13）。

6.1. 构建

我们的风格转换网络T将一个内容图像c和一个任意的风格图像s作为输入，并合成一个将前者的内容和后者的风格重新组合的输出图像。我们采用一个简单的编码器-解码器架构，其中编码器f被固定在预先训练好的VGG-19[48]的前几层（最多到4 1）。在对特征空间中的内容和风格图像进行编码后，我们将两个特征图送入AdaIN层，将内容特征图的平均值和方差与风格特征图的平均值和方差对齐，产生目标特征图t：
在这里插入图片描述
一个随机初始化的解码器g被训练为将t映射回图像空间，生成风格化的图像T(c, s)：

解码器主要反映了编码器的情况，所有的池化层被最近的上采样所取代，以减少棋盘效应。我们在f和g中使用反射填充以避免边界伪影。另一个重要的架构选择是解码器是否应该使用实例、批量或无规范化层。正如第4节所讨论的，IN将每个样本归一化为单一风格，而BN将一批样本归一化为以单一风格为中心。当我们希望解码器生成风格迥异的图像时，这两种方法都是不可取的。因此，我们在解码器中不使用归一化层。在第7.1节中，我们将表明解码器中的IN/BN层确实会损害性能。

6.2. 训练

我们使用MS-COCO[36]作为内容图像，从WikiArt[39]收集的绘画数据集作为风格图像来训练我们的网络，并按照[6]的设置。每个数据集大约包含80，000个训练实例。我们使用adam优化器[26]和8个内容-风格图像对的批量大小。在训练过程中，我们首先将两幅图像的最小尺寸调整为512，同时预留长宽比，然后随机裁剪尺寸为256×256的区域。由于我们的网络是完全卷积的，因此在测试过程中，它可以应用于任何尺寸的图像。

与[51, 11, 52]类似，我们使用预先训练好的VGG- 19[48]来计算损失函数来训练解码器：
在这里插入图片描述
它是内容损失Lc和风格损失Ls的加权组合，风格损失权重为λ。内容损失是目标特征和输出图像特征之间的欧氏距离。我们使用AdaIN输出t作为内容目标，而不是常用的内容图像的特征响应。我们发现这将导致更快的收敛，并且与我们反转AdaIN输出t的目标相一致。
在这里插入图片描述
由于我们的AdaIN层只传输风格特征的平均值和标准偏差，我们的风格损失只与这些统计数据相匹配。尽管我们发现常用的Gram矩阵损失可以产生类似的结果，但我们与IN的统计数据相匹配，因为它在概念上更简洁。Li等人[33]也对这种风格损失进行了探讨。
在这里插入图片描述
其中，每个φi表示VGG-19中用于计算风格损失的一个层。在我们的实验中，我们使用具有相同权重的relu1 1, relu2 1, relu3 1, relu4 1层。

7、结果

7.1. 与其他方法的比较

在本小节中，我们将我们的方法与三种类型的风格转换方法进行比较：1）灵活但缓慢的基于优化的方法[16]，2）限制于单一风格的快速前馈方法[52]，以及3）中等速度的基于灵活补丁的方法[6]。如果没有特别提到，所比较的方法的结果是通过在默认配置下运行其代码得到的。对于[6]，我们使用了由作者提供的预先训练好的逆向网络。作者提供的预训练网络。所有测试图像的尺寸为512×512。

定性的例子。在图4中，我们展示了由比较方法产生的风格转移结果的例子。请注意，所有的测试风格图像在我们的模型训练过程中从未被观察过，而[52]的结果是通过对每个测试风格拟合一个网络得到的。即便如此，我们的风格化图像的质量与[52]和[16]的许多图像（例如，第1、2、3行）相比还是很有竞争力。在其他一些情况下（如第5行），我们的方法稍微落后于[52]和[16]的质量。这并不意外，因为我们认为在速度、灵活性和质量之间有一个三方权衡。与[6]相比，我们的方法似乎在大多数对比的图像上更忠实地传递了风格。最后一个例子清楚地说明了[6]的一个主要局限性，它试图将每个内容补丁与最相近的风格补丁相匹配。然而，如果大多数内容补丁与少数不代表目标风格的风格补丁相匹配，风格转换就会失败。因此，我们认为匹配全局特征统计是一个更普遍的解决方案，尽管在某些情况下（如第3行），[6]的方法也能产生吸引人的结果。

量化评价。我们的算法是否为了更高的速度和灵活性而牺牲了一些质量，如果是的话，牺牲了多少？为了定量地回答这个问题，我们将我们的方法与基于优化的方法[16]和快速单一风格转移方法[52]在内容和风格损失方面进行比较。因为我们的方法使用了基于IN统计的风格损失，所以我们也相应地修改了[16]和[52]中的损失函数，以进行公平的比较（他们在图4中的重新结果仍然是用默认的 Gram 损失得到的）。这里显示的内容损失与[52, 16]中的相同。报告的数字是在WikiArt数据集[39]和MS-COCO[36]的测试集中随机选择的10张风格图片和50张内容图片的平均值。

在这里插入图片描述
图4. 风格转移结果的例子。所有测试的内容和风格图像在训练过程中从未被我们的网络观察到。

如图3所示，我们合成的图像的平均内容和风格损失略高，但与Ulyanov等人[52]的单一风格转移方法相当。特别是，我们的方法和[52]在50到100次迭代优化之间都获得了与[16]类似的风格损失。考虑到我们的网络在训练期间从未见过测试风格，而[52]的每个网络都是在测试风格上专门训练的，这表明我们的方法具有很强的泛化能力。另外，请注意，我们的风格损失比原始内容图像的损失小得多。

在这里插入图片描述
图3. 不同方法在风格和内容损失方面的定量比较。数字是在我们的测试集中随机选择的10张风格图片和50张内容图片的平均值。

速度分析。我们的大部分计算都花在了content编码、style编码和解码上，每一项大概都要花三分之一的时间。在一些应用场景中，如视频处理，风格图像只需要编码一次，AdaIN可以使用存储的风格统计数据来处理所有后续图像。在其他一些情况下（例如，将相同的内容转移到不同的样式），花在内容编码上的计算可以被共享。

在Tab. 1 我们将我们的方法与以前的方法[16, 52, 11, 6]进行比较。不包括样式编码的时间，我们的算法对256×256和512×512的图像分别以56和15FPS的速度运行，这使得我们可以实时处理用户上传的任意样式。在适用于任意样式的算法中，我们的方法比[16]快3个数量级，比[6]快1-2个数量级。与[6]相比，速度的提高对于更高分辨率的图像来说尤其重要，因为[6]中的样式交换层不能很好地扩展到高分辨率的样式图像。此外，我们的方法实现了与仅限于少数风格的前馈方法相媲美的速度[52, 11]。我们的方法的处理时间稍长，主要是由于我们的基于VGG的网络较大，而不是方法上的限制。如果有一个更有效的结构，我们的速度可以进一步提高。

在这里插入图片描述
表1. 256×256和512×512图像的速度比较（以秒计）。我们的方法实现了与仅限于少数风格的方法相媲美的速度[52, 11]，同时比其他适用于任意风格的现有算法快得多[16, 6]。我们显示了不包括和包括（括号内）样式编码程序的处理时间。结果是用Pascal Titan X GPU获得的，并对100张图片进行了平均。

7.2. 额外的实验

在本小节中，我们进行了实验来证明我们重要的架构选择。我们把第6节中描述的方法称为Enc-AdaIN-Dec。我们对一个名为Enc-Concat-Dec的模型进行了实验，该模型用连接法取代了AdaIN，这是一个自然的基线策略，将内容和风格图像的信息结合起来。此外，我们在解码器中运行带有BN/IN层的模型，分别表示为Enc-AdaIN-BNDec和Enc-AdaIN-INDec的再光谱。其他训练设置保持不变。

在图5和图6中，我们展示了比较方法的例子和训练曲线。在Enc-Concat-Dec基线生成的图像中（图5（d）），可以清楚地观察到风格图像的物体轮廓，这表明该网络工作未能将风格信息与风格图像的内容分开。这也与图6一致，Enc-Concat-Dec可以达到低风格损失，但不能减少内容损失。带有BN/IN层的模型也获得了质量上更差的结果，而且损失始终较高。带有IN层的结果尤其差。这再次验证了我们的主张，即IN层倾向于将输出归一化为单一风格，因此当我们想要生成不同风格的图像时，应该避免。

在这里插入图片描述
图5. 与基线的比较。在融合内容和风格信息方面，AdaIN比连接法的效率高得多。此外，重要的是不要在解码器中使用BN或IN层。

在这里插入图片描述
图6. 风格和内容损失的训练曲线。

7.3. 运行时控制

为了进一步突出我们方法的灵活性，我们展示了我们的风格转换网络允许用户控制风格化的程度，在不同的风格之间进行插值，在保留颜色的同时转换风格，以及在不同的空间区域使用不同的风格。请注意，所有这些控制都是在运行时使用同一个网络进行的，不需要对训练程序做任何修改。

内容-风格的权衡。风格转换的程度可以在训练中通过调整公式中的风格权重λ来控制。11. 此外，我们的方法还允许在测试时通过插值将特征图送入解码器来进行内容风格的权衡。请注意，这相当于在AdaIN的仿生参数之间进行插值。

在这里插入图片描述
当α=0时，该网络试图忠实地重建内容图像，而当α=1时，则试图合成最风格化的图像。如图7所示，通过将α从0变为1，可以观察到内容相似性和风格相似性之间的平稳过渡。

在这里插入图片描述
图7. 内容-风格的权衡。在运行时，我们可以通过改变Equ.14 中的权重α来控制内容和风格之间的平衡。

风格插值。为了在一组具有相应权重w1, w2, …, wK的K风格图像s1, s2, …, sK之间进行插值，使∑K k=1 wk = 1，我们同样在特征图之间进行插值（结果见图8）。
在这里插入图片描述

在这里插入图片描述
图8. 风格插值。通过AdaIN（等式15）向解码器提供转入不同风格的特征图的锥形组合，我们可以在任意的新风格之间进行插值。

空间和颜色控制。Gatys等人[17]最近介绍了用户对颜色信息和风格转移的空间位置的控制，这可以很容易地纳入我们的框架中。为了保留内容图像的颜色，我们首先将风格图像的颜色分布与内容图像的颜色分布相匹配（类似于[17]），然后使用颜色对齐的风格图像作为样式输入，进行正常的样式转移。例子的结果显示在图9中。
在这里插入图片描述
图9. 颜色控制。左图：内容和样式图像。右图：保留颜色的样式转移结果。

在图10中，我们展示了我们的方法可以将内容图像的不同区域转换为不同风格。这是通过对内容特征图中的不同区域分别进行AdaIN，使用来自不同风格输入的统计数据来实现的，与[4, 17]类似，但完全是前馈式的。虽然我们的解码器只对具有同质风格的输入进行训练，但它可以自然地推广到不同区域具有不同风格的输入中。
在这里插入图片描述
图10. 空间控制。左：内容图像。中间：两个带有相应掩码的样式图像。右图：风格转移的结果。

8、讨论与结论

在本文中，我们提出了一个简单的自适应实例归一化（AdaIN）层，它首次实现了实时的任意风格迁移。除了引人入胜的应用之外，我们相信这项工作还有助于我们理解一般的深度图像表示。

考虑我们的方法和以前基于特征统计的神经风格转移方法之间的概念差异是很有趣的。Gatys等人[16]采用了一个优化过程来操作像素值以匹配特征统计。在[24, 51, 52]中，优化过程被前馈神经网络取代。尽管如此，网络仍被训练为修改像素值以间接匹配特征统计。我们采用了一种非常不同的方法，在一个镜头中直接对准特征空间中的统计数据，然后将特征反转回像素空间。

鉴于我们方法的简单性，我们认为仍有很大的改进空间。在未来的工作中，我们计划探索更先进的网络结构，如残差结构[24]或与编码器[23]的附加跳过连接的结构。我们还计划研究更复杂的训练方案，如增量训练[32]。此外，我们的AdaIN层只对准了最基本的特征统计（均值和方差）。用相关性对齐[49]或直方图匹配[54]来取代AdaIN有可能通过转移高阶统计数据来进一步提高质量。另一个有趣的方向是将AdaIN应用于纹理合成。

玳宸

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
【翻译】AdaIN：Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization

Gatys等人最近引入了一种神经算法，以另一图像的风格渲染内容图像，实现所谓的风格转移。然而，他们的框架工作需要一个缓慢的迭代优化过程，这限制了其实际应用。有人提出用前馈神经网络进行快速逼近，以加快神经风格转移的速度。不幸的是，速度的提高是有代价的：网络通常被绑在一套固定的风格上，不能适应任意的新风格。在本文中，我们提出了一个简单而有效的方法，首次实现了实时的任意风格转移。我们的方法的核心是一个新颖的自适应实例规范化（AdaIN）层，它将内容特征的平均值和方差与风格特征的平均值和方差相一致。......
复制链接

扫一扫