【翻译】In the light of feature distributions: moment matching for Neural Style Transfer

玳宸

已于 2022-08-31 09:56:21 修改

阅读量563

点赞数

分类专栏：论文翻译文章标签：深度学习人工智能风格迁移

于 2022-08-30 23:46:20 首次发布

本文链接：https://blog.csdn.net/zeroheitao/article/details/126579061

版权

论文翻译专栏收录该内容

18 篇文章 3 订阅

订阅专栏

在这里插入图片描述

根据特征分布：神经风格迁移的矩匹配

文章目录

Abstract
1. 绪论
2. 相关工作
3. 办法
4. 结果
5. 局限性和未来工作
6. 结论

Abstract

风格转换的目的是以另一图像的图形/艺术风格来呈现一个给定图像的内容。神经风格转换（NST）的基本概念是将风格解释为卷积神经网络特征空间中的分布，这样就可以通过匹配其特征分布实现所需的风格。我们表明，目前该概念的大多数实现都有重要的理论和实践限制，因为它们只是部分地对齐特征分布。我们提出了一种新的方法，可以更精确地匹配分布，从而更忠实地再现所需的风格，同时仍然具有计算效率。具体来说，我们采用了最近为领域适应（domain adaptation）提出的中心矩差异（Central Moment Discrepancy，CMD）的双重形式，使目标风格与输出图像的特征分布之间的差异最小。这种方法的双重解释明确地与所有高阶中心矩相匹配，因此是现有的只考虑第一和第二矩的NST方法的自然延伸。我们的实验证实，强大的理论恰当性也转化为视觉上更好的风格转移，并更好地将风格与语义图像内容分离开来。

1. 绪论

2017 年，《Loving Vincent》上映，这是第一部超过 65,000 帧的全彩绘故事片。事实上，每一帧都是一幅油画，由 100 多位艺术家中的一位绘制。电影的创作分为两个步骤。首先，整部电影是由真人演员在绿幕前制作的，然后被梵高的画作取代。第二步，每一帧都由一位艺术家用梵高的技术和风格进行绘制，耗时六年多才完成。

试图将这种形式的纹理合成自动化，称为风格转移，至少可以追溯到90年代中期[12]。最近，Gatys等人[9]率先提出了神经风格转移（NST）的想法。它是基于这样的想法：预先训练好的卷积神经网络（CNN）的深层编码高层次的语义信息，并对实际的外观不敏感，而浅层则学习低层次的特征，如颜色、纹理和笔刷的特点。在这种情况下出现的一个基本问题是如何定义风格。Li等人[25]证明了在[9]中引入的损失可以被改写为最大平均损失（MMD），提供了一种将风格转移解释为对齐特征分布的方法。事实上，大多数现有的方法可以用这种方式来解释。这导致了一系列的工作，这些工作都围绕着对齐CNN的特征分布，将风格转移与领域适应（DA）联系起来。在这里，我们更深入地研究了这种解释。通过将NST转化为分布匹配，它变得适合于为测量概率分布之间的分歧而开发的一套工具，如积分概率方法（integral probability metrics）、f-分歧（f -divergences）和最优传输（Optimal Transport，OT）。

两个分布之间的差异d(P, Q)，即概率度量，一般来说不是度量，但它们应该满足以下较弱的条件：(i) 非否定性：d(P, Q)≥0；(ii) 不可辨认性的一致性：d(P, Q)=0 iff P =Q。然而，考虑到特征分布，现有的风格转移方法受到了相当初级的理论限制。大体上，有两个流派。要么分布是不受限制的，但它们之间的差异是在不遵守不可知规律的情况下测量的[9, 25, 15, 32]；要么分布是用简单的函数粗略地近似，以便它们接受封闭式的解决方案[29, 19, 24, 27]。

在这里，我们展示了如何在最近提出的中心矩差（CMD）框架的帮助下克服这些限制[39]。这种（伪）度量是基于分布在紧凑区间上作为矩量序列的表示。在极限情况下，CMD是紧凑支持的分布集合上的一个总体概率度量，因此根据定义，它符合不可逆定律（以及非负性）。重要的是，在它的对偶表述中，CMD的计算效率很高，而且可以用中心矩的上限来无缝地证明近似值[38]。综上所述，我们做出了以下贡献：
(i)我们根据分布的排列方式对现有的NST方法进行了系统的分类；
(ii)我们明确了基本的近似并强调了相应的限制；
(iii)我们提出了一种基于中心矩差的新型NST算法。

据我们所知，我们的方法是第一个以严格的、计算高效的方式来对齐风格分布的方法，并有理论依据的近似界线。从经验上看，该方法在艺术风格和语义内容之间实现了更清晰的分离，并且根据一项有超过50名参与者的用户研究，实现了视觉上更引人注目的风格转移。

2. 相关工作

风格转移（Style Transfer） 至少二十年来，风格转移一直是计算机视觉领域一个活跃的研究课题。直到最近，它还是基于手工制作的特征和风格。这包括基于笔触的渲染[20]，用一组笔触重新绘制图像[13]，图像绗缝[5]，其中纹理是根据分割图在小块中合成的，或者图像类比[14]，以一种普遍的方式学习风格过滤器。向CNN的转变催生了神经风格转换。目前的NST技术可以被分为基于图像优化或模型操作的技术[16]。第一组的方法是按照[9]的开创性工作，将风格转移到每个新的输出图像上。这项工作首次引入了在CNN中匹配中间层的图像统计的想法。随后的工作探索了不同的方向来提高风格化的质量。Risser等人[32]通过加入额外的直方图和总变化损失来规避优化的不稳定性。为了进一步加强对边缘等低层次内容的保护，Li等人[22]增加了Lapla-cian损失。为了在语义匹配的斑块之间转移风格（例如，从狗的眼睛到猫的眼睛），[28]定义了一个损失，比较具有类似语义的区域。同样，[21]使用MRFs在风格图像的特征空间中寻找最近的邻接斑块。两者都要求content和style图像中有相似的形状和边界。Gatys等人[10]还继续增加了用户对颜色或比例等感知因素的控制，例如，只在亮度通道中转移风格以保留颜色。最近，Kolkin等人[19]也通过成本函数中的适当权重纳入了用户定义的空间约束。

每张图片的迭代优化相对较慢。模型优化方法采用前馈网络[17, 36]在大型数据集上进行离线训练，以实现实时风格转移。最初，它们被重新限制在一组固定的风格上[35, 36, 4, 23]。后来，它们被扩展到处理未见过的风格。Huang和Belongie[15]提出了一个自适应实例归一化层，用风格图像的仿生参数对内容图像进行归一化，Chen和Schmidt[2]定义了一个交换层，用匹配的风格特征斑块替换内容特征斑块。然而，快速前馈推理是有代价的，因为它不能达到迭代方法的质量。最近有研究表明，自适应实例归一化以及增白颜色转换[24]是高斯分布之间的OT图的特殊情况，从而为前馈模型提供了一些理论基础[27, 29]。

领域适应（Domain Adaptation） 领域适应是转移学习的一个特殊实例，即在不同领域中提炼和转移知识。领域适应（DA）利用源领域的超级视觉来指导没有标记数据的目标领域的学习［3］。其原理是，源域和目标域之间的转变可以被测量，因此也可以最小化。一些作者已经注意到与NST的密切关系[25, 1]。一种常见的方法是通过用Kullback-Leibler发散[40]、最大平均差异[26]或相关排列[34]等措施对潜在特征空间中的分布进行排列，来学习一个联合特征空间。同样与风格转移有关，DA的另一种方法是直接学习源域和目标域之间的映射，例如，使用GANs[1]。关于DA的概述，见[3，37]。在这里，我们利用了另一个最初针对DA的想法，强调其与风格转移的密切关系。

3. 办法

我们首先简要回顾一下神经风格转移的核心思想。在此背景下，我们重新审视了几个现有的方法，并将其分为三类。通过对分布式排列的观点进行逻辑推理，我们接着提供了一个替代的损失函数，该函数具有很强的理论保证，计算效率高，并能提供具有视觉吸引力的结果（参见图1）。

在这里插入图片描述

图1：风格转换结果：艺术家的肖像通过我们的方法以他们自己的绘画风格呈现出来。

3.1. 神经风格转移

NST的基本思想是使用一个预先训练好的深度神经网络来生成一个具有内容图像Ic的内容特定特征和风格图像Is的风格特定特征的图像Io。通常情况下，我们要最小化内容和风格损失的凸组合：
在这里插入图片描述
我们按照[29]的符号进一步说明这些损失。让g是一个深度编码器，例如VGG-19[33]。对于具有相应的空间维度Hl *Wl = nl和通道深度Cl的输出特征图的特定层l，我们将特征图的第j个分量表示为一个（重塑的）函数F lj : Rd →RCl , j ∈[nl]。我们写Fl = (F lj )j∈[n] ∈RCl×nl，并称Fl(I)为图像I的第l个（重塑的）特征图。即，图像 I 的第 L 个特征图是应用所有层 l 后的激活图= 1, . . . , L to I。那么，内容损失的比例为：
在这里插入图片描述
其中 l 迭代一组 g 层。通常情况下，只使用单一的深层来计算内容损失；而风格损失是多个浅层和深层的平均值，具有超参数wl：

3.2. Style as feature distribution

为Llstyle提出的损失可以根据它们对准分布的方式进行分类。我们首先需要一些额外的定义，同样是按照[29]。为了得到一个分布，我们把特征图Fl(I)看作是nl = Hl*Wl样本上的Cl维经验分布测量。注意，通过将nl个样本视为一个无序的集合，我们明确地抛弃了空间布局。这与颜色、笔画和纹理等风格属性与位置无关的直觉相对应。更正式地说，我们定义：
在这里插入图片描述
其中P(RCl )是RCl上的经验测量空间。我们缩写νlI = νl(I)，在不需要的时候，放弃层的索引。有了这些定义，我们现在根据分布排列来回顾现有的风格转移方法。

基于MMD的优化（MMD-based optimization）。第一篇NST论文[9]已经使用了特征图的统计数据，通过格拉姆矩阵G来提取Is的特定风格属性。Gram矩阵包含二阶统计数据，在我们的例子中是特征图中相应通道之间的相关性。与对齐分布的联系可能并不明显，但Li等人[25]表明，[9]中的风格损失可以重写为MMD[11]的无偏经验估计，其内核为多义性k（x，y）=（xT y）2：
在这里插入图片描述
根据再现核希尔伯特空间（RKHS）为特征空间的假设[7]，当且仅当两个分布相同时，MMD才会消失。通过将Io和Is的特征图视为样本，最小化目标（5）与最小化νIo和νIs之间的差异是一样的。

基于矩的优化方法（Moment-based optimization） 明确地将风格分布之间的差异最小化。这些方法的理论支持来自于矩生成函数（MGFs）。众所周知，如果MGF在一个包含零的开放区间内是有限的，那么一个分布的唯一特征就是其矩。因此，如果两个具有有限MGF的分布具有相同的矩，它们就是相同的。

除了将风格转移与分布对齐联系起来，Li等人[25]还引入了一种基于批量规范化统计的风格损失。该损失是第一个明确匹配特征空间中的矩，即平均值μFl(I)和标准差σFl(I)：
在这里插入图片描述
有趣的是，当以前馈模式应用时，矩量排列也能产生合理的结果，不需要迭代优化。基于[36, 4]的想法，Huang和Belongie[15]用一个过渡形成层来对齐平均值和方差。总之，将内容图像特征空间的均值和方差与风格图像的均值和方差相匹配，可以减少νIo和νIs之间的分歧——但由于高阶矩造成的差异仍然存在。

基于优化传输的优化（Optimal Transport-based optimization） 提供了一个原则性的框架来最小化分布之间的差异，特别是考虑到了基础空间的几何学。当在概率度量空间Pp(Rd)中工作时，具有有界p矩的P，Q∈Pp(Rd)的Wasserstein距离被定义为：
在这里插入图片描述
我们可以使用Wasserstein距离进行反向传播，使νIo和νIs之间的差异最小。一般来说，计算OT的复杂度为O(n3 l log nl)，不适合于迭代优化方案。然而，将分布限制为高斯，～νIo := N(μνIo , ΣνIo )和～νIs := N(μνIs , ΣνIs )承认一个封闭形式的解决方案，
在这里插入图片描述
这类似于在基于矩的优化中匹配一阶矩和二阶矩（高斯的高阶矩在平均值和方差方面是恒定的）。相反，OT图也可以直接导出。如果人们愿意接受高斯近似，可以通过迭代最小化W2，或者通过将OT图集成到编码器-解码器网络中来对齐风格特征[29, 19, 27, 24]。已有研究表明[29, 27]，自适应实例归一化可以被看作是具有对角线协方的高斯人的OT。

3.3. 动机

从统计学角度看，这三类方法在某种程度上都与优化特征分布的目标相矛盾。

基于MMD的方法依赖于简单的（通常是线性或二次）核[9, 25]。此前，[32]已经确定了训练期间的不稳定性，因为不同的分布会导致相同的MMD。他们指出，均值和方差的变化可以相互补偿，产生相同的Gram矩阵（因此，二次核的MMD也相同），因为Gram矩阵与非中心第二矩有关。我们提供了另一种解释，即为什么Gram矩阵违反了不确定性的特征：二次核是非特征性的，也就是说，映射p→Ex∼p[k(x,-)]不是注入性的，分布p在RKHS中没有唯一的嵌入。此外，二次核（resp. Gram matrix）显然被限制在第二矩。这些是深度特征激活的充分统计量的可能性很小，所以M M D(p, q)=0几乎肯定不意味着p =q。

对于直接基于矩量匹配（MM）的现有方法，也可以提出类似的论点，因为它们只匹配平均值和变异值。定义两个具有相同方差的不同分布是微不足道的，例如，高斯N(0, √2)和拉普拉斯分布L(0, 1)。

虽然OT在概念层面上是一个强大的框架，但它被高计算成本所阻碍。高斯近似法使OT具有可操作性，但是以损失信息为代价。没有证据表明νIo和νIs的分布是（近似）高斯的——事实上这是很不可能的，除非我们人为地限制它们，从而严重限制了深度网络的表达能力。我们声称，OT，至少在其流行的、受限制的形式下，也大多降低到匹配第一和第二矩——（8）中的近似值完全以平均值和协方差来定义。

最后，我们指出平均过度惩罚效应：[39]发现在小扰动下DA训练期间分布排列的不稳定性，这是因为使用原始而不是集中的矩（如在MMD中使用标准多项式核和非集中的整数概率指标）。详情请参考[39]。

3.4. 用于神经风格迁移的 CMD

我们建议利用一个合适的积分概率能力度量，即中心矩差（Central Moment Discrepancy）[38]，而不是只匹配一阶和二阶矩。在其核心部分，该度量利用共同支持的分布作为矩序列的双重表示。对中心矩的转换导致了自然的几何关系，如方差、偏度和峰度。不是说在早期的纹理合成工作中已经研究了匹配更高矩的想法[31]，但到目前为止，在NST中已经被忽略了。

在图2中，我们说明了CMD的增强表达能力。在我们的玩具例子中，源和目标是具有不同参数的单变量Beta分布，也就是说，它们的第三和第四矩是非零的。我们用10,000个样本表示每个分布，并用梯度下降法使相应的排列损失最小化。这个例子表明，基于第一和第二矩的三种方法都不能对齐两个分布（注意，在一维情况下，MM和OT是相同的）。相反，CMD能很好地对齐它们。

在这里插入图片描述
图2：1D中分布匹配的说明。来源∼Beta(2, 3)和目标∼Beta(0.5, 0.45)不能用MMD、MM或OT（在1D中与MM相同）来匹配。相反，CMD在有5个矩的情况下就能很好地对齐它们，而且随着更多矩的加入，残余误差渐渐减小。详见正文。

两个紧凑支持的分布P和Q之间的CMD定义如下[39]：
在这里插入图片描述
ai ≥ 0。 η(i)(x) 是 i 阶的单项式向量，定义为

根据结构，CMD是非负的，尊重三角不等式，如果P=Q，那么cmdk(P, Q)=0。此外，[38，定理1]指出，cmdk(P, Q)=0意味着k→∞的P=Q，所以CMD是紧凑支持分布上的一个度量。

对于实际应用来说，计算cmd∞显然是不可能的，我们必须将k约束到K < ∞，从上面来看。与其他用于风格转换的近似值相比[29, 19]，有界的cmdK有一个自然的理论说明。可以证明[39，命题1]，方程9中的第i项被一个上界所约束，该上界随着阶数i的增加而严格减少。即，方程（9）中高阶矩项的分布单调地趋于0。为了保持实现效率，我们只计算边际矩，将单项式向量限制为η(i)(x)=(xi 1, —, xi m)。

使CMD适应我们的风格特征分布是很简单的。为了满足这些要求，我们在每个特征输出周围包裹了一个sigmoid函数σ(-)，以便将经验分布的支持度重新严格到[0, 1]。稍微滥用一下符号，我们把σ(νl)写成从sigmoid变换的特征中计算出来的νl，并为l层定义。矩是经验度量的简单矩，即E[Fl(I)-μFl(I)]∈RCl的幂。通过采用CMD，我们有了一个NST的积分概率度量，它不仅具有有利的理论特性，而且易于实现，计算效率高，并能处理具有重要高阶矩的复杂特征分布。
在这里插入图片描述

4. 结果

在本节中，我们将我们的结果与每个类别的现有方法进行比较。在总结了实施的细节之后，我们从质量上评估了将风格特征与CMD相一致的效果。除了视觉上的比较，我们还报告了一个用户研究的定量结果，这支持了我们的假设，即高阶矩带有重要的风格信息，不应该被忽视。最后，我们在一项消融研究中进一步调查了不同矩的影响。

4.1. 实验设置

我们采用VGG-19[33]作为特征编码器，在层级l∈{1 1, 2 1, 3 1, 4 1, 5 1}上读出特征图。与常用的NST设置略有不同，我们使用原始卷积输出conv-l，而不是它们的整流版本relu-l，因为我们用sigmoid激活将它们夹在[0, 1]中计算CMD，见（11）。内容损失是在conv4 1上计算的，对于风格损失中的各个层，我们使用与[9]中提出的相同的加权方案。优化是用Adam[18]进行的。我们没有在固定的迭代次数后盲目停止，而是根据当前风格损失和风格损失的移动平均数的差异来实现停止标准。我们将我们的算法与五个基线进行比较：一个来自MMD组[9]，两个基于直接矩差[25, 15]，两个基于OT[24, 27]。我们使用现有的开源实现，并保持原论文中提出的所有超参数，重谱源代码。我们的实现是基于PyTorch[30]，也是公开可用的。在我们的实验中，我们将矩的阶数限定为K=5，因为更高的阶数影响很小。

4.2. 定性结果

我们在第3.3节中指出了以前NST方法的理论局限性。为了了解这些限制如何转化为具体的视觉差异，我们分析了风格化图像对三种不同风格属性的保留程度，即颜色、纹理和笔触、形状。见图3，以及补充材料中的进一步结果。

颜色和亮度（Color and brightness）。本文关注的是全自动的NST，没有额外的用户控制。因此，输出应该具有风格图像的调色板。也就是说，只有内容图像的语义内容应该被重新保留，但颜色应该被风格的代表所取代，特别是两种颜色空间不应该被混合。看一下图3的第一行，右边鹦鹉的红色强烈地渗入到AdaIN、Gatys和MM的结果中，而且在WCT中也能看到痕迹。除了我们的方法，那些基于OT的方法在调色板方面表现最好，但是OT有一种倾向，即夸大亮度的变化，而这并不是内容所需要的，例如第5行的女孩的脸和第6行的背景。事实上，看来局部的颜色和强度信息在某种程度上隐藏在高阶矩里。4.4节中的消融研究也支持这一观点。

在这里插入图片描述
图3：我们的算法和以前的方法在所有三个类别中的风格转移结果。最好在屏幕上观看。请放大以欣赏风格细节。

纹理和笔触（Texture and stroke）。当涉及到艺术风格的转移时，保持笔触和纹理是特别重要的，以保留伴随的个人绘画技巧。我们发现，拟议的CMD方法在复制颗粒状画布、定向笔触等方面特别出色。图3的第1行和第5行，以及第2行的湖面倒影就是明显的例子。我们还指出了第4行中特别具有挑战性的例子。放大风格图像，我们可以看到纸张的粗糙纹理，以及对定向阴影笔触的偏好。虽然没有一种方法在这种困难的情况下是完美的，但只有我们的方法和Gatys（但有很强的色彩伪影）在一定程度上能部分地发现这些特征。总的来说，我们观察到定向的高频图案似乎受益于更高的（特别是奇数）矩，但还需要进一步的研究来深入探索这种关系。

形状（Shape）。最后，我们把注意力转向形状。这个问题比较复杂，因为装饰性和装饰性的形状元素，如图3第3行的方形图案，是风格的一部分，而具有类似大小的语义元素是内容的一部分，如第4行的眼睛或第5行的化妆。CMD可以很好地分解这两个方面，并很好地保留了内容的重要边界和细节，同时还能强加风格的特征形状。也许最令人信服的例子是第3行，但在其他情况下，强加风格和保留突出的内容特征之间的微妙平衡似乎也得益于高阶矩，例如第4、5、6行。

4.3. 定量结果

用户研究（User study）。对于如何定量地评估NST，目前还没有明确的共识。什么是 "正确的 "输出显然是个问题，甚至判断一个给定的风格化如何 "好 "也取决于审美偏好，必须保持主观性。事实上，用同样的方法，只有通过改变风格和内容损失的相对权重，才能产生非常不同的结果，这取决于应用和个人品味，哪种方法更受欢迎。

目前的共识是进行用户研究，向参与者展示结果而不透露它们是如何产生的，并收集用户偏好的统计数据。我们注意到，虽然我们同意美学质量很难衡量，但人们通常可以毫不犹豫地从少数几个可供选择的风格中挑选自己最喜欢的，这给这些研究提供了一些支持：至少，它们是一个指南，在现有的方法中，哪一个方法将提供相对最大份额的用户群最喜欢的结果。我们用上述同样的方法进行了一次用户研究。AdaIN [15], Gatys [9], Moment Matching [25], OST [27], WCT [24]，以及所提出的CMD方法。该研究使用了部分柯达图像数据集[6]和广泛用于NST的其他内容图像，显示了各种场景、物体和人类。风格数据集是由NST中常用的绘画和素描组成的，来自于一系列艺术家，包括毕加索、康定斯基、梵高和其他艺术家。总的来说，我们把31张内容图像和20张风格图像详尽地结合起来，每个算法有620张风格化的图像。在研究中，六种风格化的结果以随机的顺序并排显示，同时还有基本的内容和风格图像。用户被要求挑选一张最能传递风格的图片，如形状、质地和颜色，用他们自己的判断力。

总的来说，我们收集了来自56个不同参与者的超过2700张投票。得分情况见表1。1. 这项研究揭示了一些有趣的见解。事实上，我们提出的CMD方法表现良好，比最接近的竞争者多了≈10%的票数。[9]的经典NST获得了第二高的票数。这支持了我们的主张，即迭代方法在质量方面仍有优势，因为一次性方法以质量换速度。
在这里插入图片描述
表1：每种方法在我们的用户研究中得到的票数。*表示一次性前馈方法。

4.4. 消融研究

在我们的方法中，有可能单独重新加权或关闭矩。我们已经进行了一项消融研究，以更好地了解不同矩的影响，见图4。请注意，这个调谐旋钮与[10]精神中的用户控制是正交的，即在预处理中分离出一个特定的属性，如颜色，并有选择地应用风格化。图4显示了不同矩组合的风格转换结果。在对角线上只使用与行/列索引相关的单一矩。然后，高阶矩沿行逐渐增加，例如，位置（2，2）只对应于第二矩（权重向量a=[0，1，0，0，0]），元素（2，4）对应于第二、第三和第四矩（权重向量a=[0，1，1，0]）。正如可以预见的那样，矩和视觉属性之间没有明显的、"纯粹的 "对应关系。不过，这项研究还是说明了一些有趣的关系。首先，我们可以立即看到，即使是第5阶，也仍然贡献了重要的风格元素，例如第一行中的下巴和帽子。奇数矩似乎主要调节整体亮度和对比度，而偶数矩则倾向于改变颜色和高频纹理。

在这里插入图片描述
图4：仅使用选定的矩进行消融研究。详见正文。

我们的CMD方法只改变了分布对齐的损失函数，可以与NST的其他扩展无缝结合。例如，用户仍然可以通过调整风格和内容损失的相对权重来控制风格在图像内容中的印记程度。为了说明这一点，我们用我们的CMD方法进行风格化，并对公式（1）中的权重α进行线性插值。图5显示了一个例子，在内容损失上投入更多的权重会产生越来越弱的 “部分风格化”，使之更接近于内容图像。

在这里插入图片描述
图5：通过改变内容损失的相对影响α来改变风格转移的强度（参看公式（1））。

5. 局限性和未来工作

目前NST有两个概念方向：迭代优化技术和一次性前馈方法。我们的算法属于前者。虽然迭代方法可以说仍能产生更好的结果，但对于实时应用来说，它们太慢了。我们的方法继承了这个缺点，例如，它不能用于（接近）实时的视频合成。

在概念层面上，我们不得不做两个简化的近似，以便从CMD的数学形式主义迈向实际执行。一方面，我们将中心矩的阶数限制在一个有限的、实际上很小的K。至少在原则上，这一限制的影响可以通过增加K来保持尽可能小，因为额外的中心矩的影响可以证明随着阶数的增加而收敛→0。

另一方面，也许更重要的是，我们在损失中只利用边际中心矩。由于计算上的原因，我们采取了这一捷径，但这实际上意味着我们只有在边际分布是独立的情况下才能实现精确的分布匹配。目前还没有证据表明情况是这样的，而且我们也看不到一个简单的方法来衡量由于近似而可能损失多少信息。

6. 结论

我们重新审视了神经风格转移的解释，即对齐特征分布。在将现有的方法分为基于MMD、矩匹配和OT的三组之后，我们表明，所有这些方法在实践中都只匹配第一和第二矩。然后，我们继续提出了一种基于中心矩差的新方法。我们的方法可以被解释为最小化一个整体的概率度量，或者被解释为匹配所有的中心矩到一个期望的顺序。我们的方法在理论上和实践上都有好处。在理论方面，它有强大的近似保证。在实践方面，它为复杂特征分布的高阶矩提供了一种高效的计算方法，并实现了许多艺术风格在视觉上的更好转换。在更广泛的范围内，即使Portilla和Simoncelli为纹理合成提供了高阶匹配[31]，Gatys等人[8，9]在开创神经风格转换时，除了二阶矩外，都不考虑其他的。在这方面，我们的方法在NST中重新引入了高阶匹配。

玳宸

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
【翻译】In the light of feature distributions: moment matching for Neural Style Transfer

风格转换的目的是以另一图像的图形/艺术风格来呈现一个给定图像的内容。神经风格转换（NST）的基本概念是将风格解释为卷积神经网络特征空间中的分布，这样就可以通过匹配其特征分布实现所需的风格。我们表明，目前该概念的大多数实现都有重要的理论和实践限制，因为它们只是部分地对齐特征分布。我们提出了一种新的方法，可以更精确地匹配分布，从而更忠实地再现所需的风格，同时仍然具有计算效率。具体来说，我们采用了最近为领域适应（domain adaptation）提出的。......
复制链接

扫一扫