FaceNet: A Unified Embedding for Face Recognition and Clustering 翻译

最新推荐文章于 2024-08-07 13:27:38 发布

87年的90后

最新推荐文章于 2024-08-07 13:27:38 发布

阅读量848

点赞数

分类专栏：深度学习工具

深度学习工具专栏收录该内容

4 篇文章 1 订阅

订阅专栏

摘要：

尽管最近在人脸识别领域取得了重大进展[10,14,15,17]，但大规模有效地实施人脸验证和识别对当前方法提出了严峻挑战。在本文中，我们提出了一种名为FaceNet的系统，它直接学习从面部图像到紧凑的欧几里德空间的映射，其中这种距离直接对应于面部相似性的度量。一旦生成此空间后，使用FaceNet嵌入作为特征向量的标准技术可以轻松实现面部识别，验证和聚类等任务。

我们的方法采用深度神经网络训练直接优化embedding本身，而不是像以前的深度学习方法那样的中间瓶颈层。为了训练，我们使用新颖的在线三重挖掘方法生成的大致对齐的匹配/非匹配面部补丁的三元组。我们使用每面只有128个字节来实现最先进的人脸识别性能。

在广泛使用是的LFW数据集上，我们的系统达到一个新的准确率：99.63%，在YOUTUBE Face DB 上达到95.12%。

1.介绍

本文中，我们提出了一个统一的面部验证系统（这是同一个人），识别（这个人是谁）和聚类（在这些面孔中找到普通人）。
我们的方法基于使用深度卷积网络学习每个图像的欧几里德嵌入。训练网络使得嵌入空间中的平方L2距离直接对应于面部相似性：
同一人的面部具有小距离,并且不同人的面部具有大距离。

一旦这种embedding产生，之前提到的任务：人脸认证只涉及到2个embedding之间的阈值距离，人脸识别变为KNN分类问题，人脸集群通过K均值和凝聚聚类实现聚类。

之前的人脸识别方法基于深度网络采用分类层【15】【17】在一组已知面部身份上训练的分类层。然后将中间瓶颈层作为表示，用于概括超出训练中使用的身份集的识别。这种方法的缺点是它的间接性和低效率：一不得不希望瓶颈表现能够很好地概括为新面孔; 通过使用瓶颈层，每个面的表示大小通常非常大（1000维）。最近的一些工作[15]使用PCA降低了这种维度，但这是一种线性转换，可以在网络的一个层中轻松学习。

和这些方法相比，FaceNet基于LMNN的三重损耗函数直接训练其输出为紧凑的128-D嵌入[19].我们的三元组由两个匹配的面部缩略图和一个不匹配的面部缩略图组成，并且损失旨在将正对与负对分开一个距离边距。缩略图是面部区域的紧密裁剪，除了缩放和平移之外，没有2D或3D对齐。

选择使用哪些三胞胎对于实现良好的表现非常重要，并且受课程学习的启发[1]，我们提出了一种新颖的在线负面样本挖掘策略，确保网络训练的三胞胎难度不断增加。为了提高聚类精度，我们还探索了硬阳性挖掘技术，该技术鼓励球形聚类用于嵌入单个人。