FaceNet: A Unified Embedding for Face Recognition and Clustering翻译

最新推荐文章于 2021-06-01 15:32:33 发布

静候：花开

最新推荐文章于 2021-06-01 15:32:33 发布

阅读量976

点赞数 1

原文链接

用于人脸识别和聚类的统一嵌入

摘要：
尽管人脸识别领域近年来取得了显著的进展，但大规模高效地实现人脸验证和识别对现有方法提出了严峻的挑战。在这篇论文中，我们提出了一个系统，称为FaceNet，它直接学习从人脸图像到紧凑的欧几里德空间的映射，其中距离直接对应于人脸相似性的度量。一旦这个空间被创造出来，像人脸识别、验证和聚类这样的任务就可以很容易地用标准技术来实现，而FaceNet的嵌入就是特征向量。
我们的方法使用一个经过训练的深度卷积网络来直接优化嵌入本身，而不是像以前的深度学习方法那样使用一个中间的瓶颈层。为了进行训练，我们使用一种新的在线三元组挖掘方法生成的大致对齐的匹配/非匹配的面部小块三连体。我们的方法的好处是更大的表征效率：我们实现了最先进的人脸识别性能只用128字节每个脸。在广泛使用的野生标记人脸(LFW)数据集上，我们的系统获得了99.63%的新记录精度。在YouTube上，DB达到了95.12%。我们的系统将两个数据集的错误率与最佳公布结果相比降低了30%。我们还介绍了谐波嵌入的概念，以及谐波三元组损耗，它描述了不同版本的面嵌入(由不同的网络产生)，它们彼此兼容并允许彼此之间进行直接比较。
1.介绍
在本文中，我们提出了一个统一的人脸验证系统(这个人是同一个人吗)，识别系统(这个人是谁)和聚类系统(在这些人脸中找到普通人)。我们的方法是基于学习欧氏嵌入每个图像使用深卷积网络。对网络进行训练，使嵌入空间中L2距离的平方直接对应于人脸相似度:
在这里插入图片描述
图1：光照和姿态不变性，姿态和光照是人脸识别中一个长期存在的问题。这张图显示了在不同的姿势和光照组合下，同一个人和不同人的脸对之间的FaceNet输出距离。0.0的距离意味着面是相同的，4.0对应的是相反的谱，两个不同的恒等式。你可以看到1.1的阈值可以正确地对每一对进行分类。

同一个人的脸距离小，不同人的脸距离大。一旦产生了这种嵌入，那么前面提到的任务就变得很简单了：人脸验证仅仅涉及到对两个嵌入之间的距离进行阈值化；识别成为一个k-NN分类问题：而聚类可以通过k-means或凝聚聚类等离轴技术来实现。以前的基于深度网络的人脸识别方法是在一组已知的人脸标识上训练一个分类层，然后取一个中间的瓶子-颈层作为一种表示法，用于在训练中使用的标识集之外泛化识别。这种方法的缺点是它的间接性和低效性：人们不得不希望瓶颈表示能很好地推广到新面孔：通过使用瓶颈层，每个面的表示大小通常非常大(1000维)。最近的一些工作已经使用PCA降低了这个维度，但是这是一个线性变换，很容易在网络的一层学习。

与这些方法不同的是，FaceNet直接使用基于LMNN的基于triplet的损耗函数将其输出训练成紧凑的128-D嵌入。我们的三元组由两个匹配的面部缩略图和一个不匹配的面部缩略图组成，丢失的目的是通过一定的距离将正和负的配对区分开。缩略图是面部区域的紧密农作物，没有2D或3D对齐，除了缩放和平移执行。我们提出了一种新颖的在线负面范例挖掘策略，该策略保证了在网络训练过程中，三元组的难度不断增加。为了提高聚类精度，我们还探索了硬正挖掘技术，该技术鼓励球面聚类用于单个人的嵌入。作为我们的方法可以处理的令人难以置信的可变性的一个例子，请参见图1。这里显示的是来自PIE的图像对，这些图像对以前被认为是人脸验证系统中非常困难的。
本文其余部分的概述如下：在第2节中，我们回顾了该领域的文献;第3.1节定义了三元组损失，第3.2节描述了我们新的三元组选择和训练程序；在3.3节中，我们描述了所使用的模型架构。最后，在第4和第5节中，我们给出了我们的嵌入的一些定量结果，并定性地探讨了一些聚类结果。
2. 相关工作
类似于最近其他使用深度网络的作品，我们的方法是一种纯粹的数据驱动的方法，它直接从面部像素学习其表示。与使用工程特征不同，我们使用一个大的标记人脸数据集来获得适当的不变性，以满足姿势、光照和其他变化条件。在这篇论文中，我们探讨了两种不同的深度网络架构，它们最近在计算机视觉社区中获得了巨大的成功。两者都是深度卷积网络。第一个架构基于Zeiler&Fergus模型，该模型由多个交错的卷积层、非线性激活、局部响应规范化和最大池化层组成。我们还增加了几个1×1×d卷积层的灵感的功能。第二种架构基于Szegedy等人的先启模型，该模型最近被用作ImageNet 2014的获胜方法。这些网络使用混合层，这些混合层并行运行几个不同的卷积和池化层，并将它们的响应连接起来。我们发现，这些模型可以减少多达20倍的参数数量，并有潜力减少可比较的性能所需的失败次数。
有大量的人脸验证和识别工作。回顾它是超出了这篇论文的范围，所以我们将只简要地讨论最近的相关工作。别人的工作都采用了一个复杂的多阶段系统，将深度卷积网络的输出与PCA进行降维，将SVM进行分类。Zhenyao等人使用深度网络将人脸“扭曲”到一个规范的正面视图中，然后学习CNN，将每个人脸都归为一个已知的身份。对于人脸验证，使用网络输出的PCA和支持向量机集成。
Taigman等人提出了一种多阶段的方法，将人脸对齐到一个通用的三维形状模型。一个多类网络被训练来执行4000多个身份的人脸识别任务。作者还用所谓的Siamese网络进行了实验，他们直接优化了两个面部特征之间的距离。他们在LFW上的最佳表现(97.35%)来自于使用不同的校准和颜色通道的三个网络的集成。预测的距离(非线性支持向量机预测基于χ2kernel)的网络使用非线性支持向量机相结合。
Sun等人提出了一种紧凑的因此相对便宜的计算网络。他们使用了25个这样的网络，每个网络在不同的面部贴片上运行。对于他们在LFW(99.47%)上的最终表现，作者结合了50个响应(常规和翻转)。利用主成分分析和联合贝叶斯模型有效地对应于嵌入空间的线性变换。他们的方法不需要显式的2D/3D对齐。利用分类和验证损失相结合的方法对网络进行训练。验证损失类似于我们使用的三重损失，因为它最小化了相同身份的人脸之间的l2距离，并强制了不同身份的人脸之间的距离的差额。主要的区别是只有成对的图像被比较，而三元组的损失鼓励了相对距离的约束。Wang等人探索了一个类似的损失，即根据语义和视觉相似性对图像进行排序。
在这里插入图片描述
图2模型结构。我们的网络由一个批量的输入层和一个深度的CNN，再加上L2正则化，从而实现了人脸的嵌入。接下来是训练中的三重损失。

图3：三元组损失使锚和正极之间的距离最小化，两者具有相同的特性，并使锚和不同特性的负极之间的距离最大化
3.方法
FaceNet使用深度卷积网络。我们讨论了两种不同的核心架构:Zeiler&Fergus风格的网络和最近出现的类型的网络。这些网络的详细情况载于第3.3节。
考虑到模型细节，并将其作为黑箱(参见图2)，我们的方法的最重要部分在于整个系统的端到端学习。为此，我们利用三重损失直接反映了我们在人脸验证、识别和聚类方面想要达到的目的。也就是说，我们力求将图像嵌入到特征空间中，使得相同身份的所有人脸之间的距离的平方(不受成像条件的影响)都很小，而来自不同身份的人脸图像之间的距离的平方(不受成像条件的影响)很大。
虽然我们没有直接与其他的损耗进行比较，但是我们认为三重损耗更适合于人脸分类。其动机是鼓励同一身份的所有人脸都投射到嵌入空间中的一个点上。然而，三元组的缺失试图在一个人的每对面孔与所有其他面孔之间建立一个界限。这使得一个身份的面孔可以存在于一个流形上，同时仍然加强了距离，从而可以识别其他身份。下一节将介绍三元组损失，以及如何在规模上有效地学习它。
3.1三元组损失
嵌入由f(x)∈Rd表示，它将图像x嵌入到d维欧氏空间中。另外，我们将这个嵌入限制在d维超球面上，即||f(x)||2= 1(二范数为1)。在这里，我们想要确保一个特定的人的图像(锚点anchor)更接近同一个人的所有其他图像(正postive)比它更接近任何其他人的任何图像(负negtive)。如图3所示。因此我们希望
在这里插入图片描述
其中α是一个利润率之间执行积极的和消极的对。T是训练集中所有可能的三元组的集合，其基数为N。这个损失最小化是

生成所有可能的三元组会产生许多容易满足的三元组(即满足式(1)中的约束条件)。这些三元组将不会有助于训练，并导致较慢的收敛，因为他们仍然会通过网络。关键是要选择困难的三元组，这是积极的，因此可以有助于改善模型。下面的部分将讨论我们在三重选择中使用的不同方法。
3.2三元组选择
为了确保快速收敛，至关重要的是如何选择违反三重约束的三元组。这意味着，我们要选择anchor与postive距离较远的进行训练。有两个选择生成三元组的方式：这可以通过在一个小批中选择难的的正面/负面范例来实现。在这里，我们将重点放在在线生成上，并使用数千个样本的大型迷你批，并且只计算迷你批中的argmin和argmax。要有锚定正距离的有意义的表示，需要确保每一个恒等式中都存在一个最小数量的范例。
•每n步离线生成三元组，使用最新的网络检查点，计算数据子集上的argmin和argmax。
•在线生成三元组。这可以通过在一个小批中选择硬的正面/负面范例来实现。
在我们的实验中，我们对训练数据进行抽样，这样每个小批的每个身份大约选择40个面孔。此外，随机抽样的负面面孔被添加到每个小批。
我们不是选择最难的正，而是在一个小批中使用所有的锚定正对，同时仍然选择最难的负。我们并没有将硬锚定正对与小批量内的所有锚定正对进行并排比较，但我们在实践中发现，所有锚定正方法在训练开始时更稳定，收敛速度略快。我们还探索了三元组的离线生成与在线生成的结合，这可能允许使用更小的批量，但实验是不确定的。在早期的训练中，它会导致一个崩溃的模型(即f(x) = 0)，为了缓解这个问题，它会帮助选择xn = 0 在这里插入图片描述
我们称这些否定的范例为半困难的，因为它们比肯定的范例离锚更远，但仍然困难，因为平方距离接近锚定的正距离。这些底片躺在α。如前所述，正确的三元组选择对于快速收敛至关重要。一方面，我们希望使用小批量的方法，因为在随机梯度下降(SGD)过程中，这些方法可以提高收敛性。另一方面，实现细节使得批量处理数十到数百个范例更加有效。然而，关于批大小的主要约束是我们从小批中选择硬相关的三胞胎的方式。在大多数实验中，我们使用大约1800个样本。
3.3深卷积网络
在我们所有的实验中，我们使用标准的backprop和AdaGrad的随机梯度下降(SGD)训练CNN。在大多数实验中，我们以0.05的学习率开始，然后降低学习率以最终确定模型。这些模型是从随机初始化的，并在CPU集群上训练1,000到2,000小时。在500小时的训练后，损失的减少(和准确性的增加)急剧下降，但额外的训练仍然可以显著提高性能。保证α设置为0.2。我们使用了两种类型的架构，并在实验部分更详细地探讨了它们的优缺点。它们的实际区别在于参数的不同和故障的不同。最佳模型可能因应用程序的不同而有所不同。例如，在数据中心运行的模型可能有很多参数，需要大量的FLOPS，而在移动电话上运行的模型需要很少的参数，这样才能装入内存。我们所有的模型采用修正的线性单元作为非线性激活函数。
在这里插入图片描述
表1，NN1。这个表格展示了我们基于zeiler和fergus的模型的结构，该模型的卷积数为1×1。
第一类如表1所示，在Zeiler&Fergus体系结构的标准卷积层之间增加了1×1×d卷积层，如所示，模型深度为22层。它总共有1.4亿个参数，每张图片需要大约16亿次点击。我们使用的第二类是基于GoogLeNet风格的初始模型。这些模型具有20×更少的参数(大约6.6M-7.5M)和多达5×更少的FLOPS (500M-1.6B)。这些模型中的一些在尺寸(深度和过滤器的数量)上被显著地减少，因此它们可以在移动电话上运行。一个是NNS1，它有26M个参数，每张图片只需要2.2 m次点击。另一个是NNS2，它有430万个参数和20米的拖放。表2详细描述了我们最大的网络NN2。NN3在架构上是相同的，但是减少了160x160的输入大小。NN4的输入大小只有96x96，因此大大降低了CPU需求(285M FLOPS vs NN2的1.6B)。除了减少了输入大小之外，它还没有在更高的层中使用5x5卷积，因为接受域那时已经太小了。一般来说，我们发现5x5的卷积可以被完全移除只有一个微小的准确性下降。图4比较了我们所有的模型。
4.数据集和评价
我们在四个数据集上评估我们的方法，除了标记的lfw脸和YouTube脸，我们在面部验证任务上评估我们的方法。即给定一对人脸图像，使用平方L2距离阈值D(xi, xj)来确定相同和不同的分类。同一恒等式的所有对(i, j)用Psame表示，不同恒等式的所有对用Pdiff表示。我们将所有的true accept集合定义为
在这里插入图片描述这些是在阈值d处被正确分类(i, j)。

是所有被错误分类为相同的面对的集合(false accept)。
验证率V (d)和假接受率V (d)

4.1抵抗测试集
我们保留了大约100万张图片，它们的分布和我们的训练集是一样的，但它们的身份是不同的。为了进行评估，我们将其分成5个独立的20万张图片集。然后在100k×100k图像对上计算F AR和V AL率。标准错误报告横跨五分。
4.2个人照片
这是一个与我们的训练集分布相似的测试集，但是已经被手动验证为具有非常干净的标签。它由三个个人相册组成，总共有大约12k张图片。我们计算了所有12k平方对图像的F AR和V AL率。
4.3学术数据集
野外标记人脸(LFW)是用于人脸验证的实际学术测试集[7]。我们遵循不受限制的、有标记的外部数据的标准协议，并报告平均分类精度和平均标准误差。Youtube Faces DB是一个在人脸识别领域非常受欢迎的新数据集。该设置类似于LFW，但不是验证图像对，而是使用视频对
在这里插入图片描述
图4。失败与准确性的权衡。这里显示的是对于各种不同的模型大小和架构，在失败和准确性之间的权衡。突出显示的是我们在实验中关注的四个模型
5.实验
如果没有提到其他方面，我们使用1亿到2亿的训练面部缩略图，包含大约800万个不同的身份。每个图像上运行一个人脸检测器，并在每个脸周围生成一个紧密的边界框。这些面缩略图被调整为相应网络的输入大小。在我们的实验中，输入大小从96x96像素到224x224像素不等。
5.1计算准确性权衡
在深入研究更具体的实验细节之前，我们将讨论特定模型所需的准确性与失败次数之间的权衡。图4显示了x轴上的FLOPS，以及4.2节中用户标记的测试数据集上0.001的错误接受率(F AR)的准确性。有趣的是，一个模型所需的计算量与它所达到的精度之间存在很强的相关性。该图突出了我们在实验中更详细讨论的5个模型(NN1、NN2、NN3、NNS1、NNS2)。我们还研究了与模型参数数量有关的精度权衡。然而，在这种情况下，情况就不那么清楚了。例如，基于Inception的模型NN2实现了与NN1相当的性能，但是只有20个参数。然而，失败的次数是相当的。显然，如果参数的数量进一步减少，在某些情况下性能会下降。其他的模型架构可能允许进一步的减少而不损失准确性，就像在这个例子中Inception所做的那样
在这里插入图片描述
表2。NN2。NN2初始阶段的细节。这个模型与中描述的模型几乎相同。两个主要的区别是使用L2pooling而不是max pooling (m)，在指定的地方。即不取空间最大值，而是计算L2norm。池总是3×3(除了最后的平均池)，并且与每个Inception模块中的卷积模块并行。如果池化后存在降维，则用p表示。然后将1×1,3×3和5×5的池化连接起来，得到最终的输出。
在这里插入图片描述
图5，网络架构。这个图显示了我们在4.2节的个人照片测试集中四个不同模型的完整ROC。10e - 4f AR的急剧下降可以用groundtruth标签中的噪音来解释。模型按性能排序为:NN2: 224×224输入启始模型;NN1: 1×1个卷积的基于zeiler和fergus的网络;NNS1:小型盗梦风格的模型，只有2.2亿人字拖;NNS2:极小的Inception模型，只有2000万次失败。
在这里插入图片描述
表3。网络架构。下表比较了我们的模型架构在hold out测试集上的性能(见4.1节)。报告的是平均验证率V AL在10E-3假接受率。还显示了五次测试的平均标准误差。
5.2CNN模型的效果
现在，我们将更详细地讨论所选的四个模型的性能。一方面，我们有传统的基于zeiler和fergus的1×1卷积架构(见表1)。另一方面，我们有初始的基于[16]的模型，它极大地减少了模型的大小。总的来说，在最终性能上，两种体系结构的顶级模型表现相当。然而，我们的一些基于eptionbase的模型，如suchasNN3，仍然取得了良好的性能，同时显著减少了失败和模型大小。我们的个人照片测试集的详细评估是如图5所示。虽然与微小的NNS2相比，最大的模型在精度上有了显著的提高，但后者可以在移动电话上运行30ms /图像，仍然足够精确，可以用于人脸聚类。F AR < 10−4的ROC曲线急剧下降，表明在试验数据groundtruth中存在噪声标签。在极低的错误接受率，一个单一的错误标记的图像可以有一个重要的影响曲线。
在这里插入图片描述
表4。图像质量。左边的表格显示了验证率在10E-3精度下对JPEG质量的影响。右边的显示了以像素为单位的图像大小如何影响10E-3精度下的验证率。这个实验是用NN1在我们的测试保留数据集的第一次分割上完成的。
在这里插入图片描述
表5所示。嵌入维数。下表比较了NN1模型的嵌入维数对4.1节所述的保持集的影响。除了在10E-3处的V值外，我们还显示了五次分割计算出的平均值的标准误差。
5.3图像质量敏感度
表4显示了我们的模型在各种图像大小范围内的鲁棒性。与JPEG压缩相比，网络的健壮性令人惊讶，而且JPEG质量可以达到20。对于大小为120x120像素的面部缩略图，性能下降非常小，即使在80x80像素的情况下，它也显示出可以接受的性能。这是值得注意的，因为网络是在220x220输入图像上训练的。低分辨率面部的训练可以进一步提高这一范围。
5.4嵌入维数
我们探索了不同的嵌入维数，除了表5所示的比较外，我们选择了128个进行所有实验。人们会期望较大的嵌入式系统的性能至少与较小的嵌入式系统一样好，但是，它们可能需要更多的培训才能达到同样的精度。也就是说，差异表现在重新表5中移植的数据在统计学上是不显著的。它应该被忽略，在训练中使用一个128维的浮点向量，但是它可以被量化到128字节而不损失精度。因此，每个面都由一个128维的字节向量紧凑地表示，这对于大规模集群和识别是非常理想的。更小的嵌入可能在精度上损失很小，并且可以应用于移动设备。
在这里插入图片描述
表6所示。训练数据的大小。下表比较了使用96x96像素输入的小模型在训练700h后的性能。模型架构类似于NN2，但是在Inception模块中没有5x5的卷积。
5.5训练数据总数
表6显示了大量训练数据的影响。由于时间限制，该评估在一个较小的模型上运行;在较大的模型上，这种影响可能更大。很明显，使用数以千万计的样本结果在我们的个人照片测试集4.2中得到了一个明显的准确性提升。与数百万张图像相比，相对误差降低了60%。使用另一个数量级的更多图像(数亿张)仍然会带来一个小的提升，但是这种提升会逐渐减弱。
5.6在LFW数据集上的性能
我们在LFW上评估我们的模型，使用的标准协议是不受限制的、有标记的外部数据。9个训练分划用于选择L2-distance阈值。分类(相同或不同)然后进行第十次测试分裂。除了分割八分之一(1.256)外，所有测试分割的最佳阈值为1.242。我们的模型有两种评估模式:
1。固定中心作物的LFW提供缩略图。
2. 在提供的LFW缩略图上运行一个专用的人脸检测器(类似于Picasa[3])。如果它没有对齐面(这发生在两个图像上)，则使用LFW对齐。
在这里插入图片描述
图6。LFW错误。这显示了在LFW上被错误分类的所有对图像。这里显示的13次错误拒收中只有8次是实际错误，另外5次在LFW中被误贴了标签。
图6给出了所有失败案例的概述。它在顶部显示错误接受，在底部显示错误拒绝。当使用(1)中描述的固定中心裁剪时，我们获得了98.87%±0.15的分类精度，而使用额外的面对齐时，我们获得了破纪录的99.63%±0.09的平均值标准误差(2)。这使得[17]中深度面的错误报告减少了不止一个因素在[15]中，DeepId2+的浓度达到了30%。这是NN1模型的性能，但即使是更小的NN3，其性能也没有统计学上的显著差异。
5.7 在Y outube Faces DB的表现
我们使用面部检测器在每个视频中检测到的前100帧的所有对的平均相似性。这使得我们的分类精度为95.12%±0.39。使用前1000帧的结果是95.18%。与[17]的91.4%相比，我们将错误率降低了近一半。DeepId2+[15]达到了93.2%，我们的方法减少了30%的误差，与我们对LFW的改进相当。
5.8人脸聚类
我们紧凑的嵌入，使自己的使用，以集群用户的个人照片到组的人具有相同的身份。与纯验证任务相比，聚类所施加的赋值约束，取得了惊人的成绩。图7显示了用户个人照片集合中的一个集群，它是使用凝聚集群生成的。它清晰地展示了遮挡、光线、姿势甚至年龄的不可思议的不变性。
在这里插入图片描述
图7。面对集群。这里显示的是一个用户的示例集群。所有这些用户个人照片集中在一起。
6总结
我们提供了一种直接学习嵌入到欧几里德空间中的人脸验证方法。这使得它有别于其他使用CNN瓶颈层的方法[15,17]，或者需要额外的后处理，如国家的多个模型和PCA，以及支持向量机分类。我们的端到端培训既简化了设置，也表明直接优化与当前任务相关的损失可以提高性能。
在这里插入图片描述
图8。谐波嵌入兼容性。这些ROCs表明NN2的谐波嵌入与NN1的嵌入具有相容性。NN2是一种改进的模型，其性能远远优于NN1。当比较NN1产生的嵌入和NN2产生的谐波时，我们可以看到两者之间的兼容性。实际上，混合模式的性能仍然优于NN1本身。
我们的模型的另一个优点是它只需要最小的对齐(脸周围的紧密裁剪)。例如，[17]执行复杂的3D对齐。我们还尝试了相似变换对齐，并注意到这实际上可以稍微提高性能。目前还不清楚这种额外的复杂性是否值得。未来的工作将集中于更好地理解错误情况，进一步改进模型，并减少模型大小和减少CPU需求。我们还将研究如何改进目前非常长的培训时间，例如，我们的课程学习的变化与更小的批量和离线，以及在线积极和消极的挖掘。
7附录：谐波嵌入
在本节中，我们将介绍谐波嵌入的概念。通过这个，我们表示由v1和v2不同模型生成的一组嵌入，但是在它们可以相互比较的意义上是兼容的。这种兼容性大大简化了升级路径。例如，在一个场景中，嵌入v1是通过大量的图像计算的，一个新的嵌入模型v2正在推出，这种兼容性确保了平稳的过渡，而不需要担心版本不兼容。图8显示了3G数据集的结果。可以看出，改进后的模型NN2明显优于-形成NN1，而NN2嵌入与NN1嵌入的比较在中级水平上执行。
在这里插入图片描述
图9。学习谐波嵌入。为了学习谐波嵌入，我们生成了混合了v1嵌入和正在训练的v2嵌入的三联体。半硬底片是从v1和v2的所有嵌入中选出的。
7.1谐波三联体损失
为了学习谐波嵌入我们把v1的嵌入和v2的嵌入混合在一起，这是我们学过的。这是在三联体丢失内部完成的，并生成额外的三联体，从而促进不同嵌入版本之间的兼容性。图9显示了导致三胞胎死亡的不同三胞胎组合。我们从一个独立训练的NN2开始初始化v2包埋，然后从随机初始化开始对最后一层(包埋层)进行再训练，兼容性使三联体丢失。首先只对最后一层进行二次训练，然后继续对整个v2网络进行谐波损耗的训练。图10显示了这种兼容性在实践中如何工作的可能解释。绝大多数v2嵌入可能被嵌入到对应的v1嵌入附近，但是，如果将v1嵌入放置不正确，可能会造成轻微的扰动，从而使它们在嵌入空间中的新位置提高了验证的准确性。
7.2总结
这些都是非常有趣的发现，它的效果如此之好，有些令人惊讶。未来的工作可以探索这个想法可以延伸到什么程度。假设在仍然兼容的情况下，v2嵌入比v1改进的程度是有限的。此外，培训小型网络将是有趣的，这些网络可以在移动电话上运行，并且与更大的服务器端模型兼容。
在这里插入图片描述
图10。谐波嵌入空间。这个可视化草图可能解释了谐波嵌入如何能够提高验证精度，同时保持对不太精确的嵌入的兼容性。在这个场景中，有一个错误分类的面，它的嵌入被打乱到v2中的“正确”位置。