FaceNet: A Unified Embedding for Face Recognition and Clustering
“Schroff F, Kalenichenko D, Philbin J. FaceNet: A unified embedding for face recognition and clustering[J]. 2015.”
摘要
FaceNet:直接学习面部图像到紧致欧氏空间(compact Euclidean space)的映射,其距离用于度量面部的相似度。
1 引言
FaceNet利用基于三元组(triplet-based)最大余量近邻(large margin nearest neighbor,LMNN)的损失函数训练网络,其输出表示为128维紧致向量。
距离为 0 0 0时,表示两张面部图像为同一个人;距离为 4 4 4时,表示两张面部图像不是同一个人。门限 1.1 1.1 1.1能够正确区分图中3组面部图像
2 相关工作
3 方法
本文给出一种将图像 x x x映射到特征空间(a feature space) R d {\mathcal{R}}^d Rd的嵌入(embedding) f ( x ) f(x) f(x),该嵌入能够减小同一用户所有面部图像之间平方距离(且与成像条件无关);并增大任意不同用户面部图像之间的平方距离。
三元组损失(triplet loss):在任意不同用户面部图像之间引入余量(enforce a margin)
3.1 三元组损失(Triplet Loss)
将图像 x x x映射到 d d d维欧氏空间(a d d d-dimensional Euclidean space)中的嵌入(embedding)记为 f ( x ) ∈ R d f(x) \in \mathcal{R}^{d} f(x)∈Rd。些外,将 f ( x ) f(x) f(x)限制在 d d d维超球面上,即 ∥ f ( x ) ∥ 2 = 1 {\|f(x)\|}_{2}=1 ∥f(x)∥2=1
锚点(anchor): x i a x_{i}^{a} xia,给定用户的面部图像
正样本(positive): x i p x_{i}^{p} xip,给定用户的其他面部图像
负样本(negative): x i n x_{i}^{n} xin,其他用户的面部图像
目标:使得给定用户的所有面部图像(锚点、正样本)间距小于该用户任意面部图像(锚点)与其他用户面部图像(负样本)间距。
(1) ∥ f ( x i a ) − f ( x i p ) ∥ 2 2 + α < ∥ f ( x i a ) − f ( x i n ) ∥ 2 2 \left\| f(x_{i}^{a}) - f(x_{i}^{p}) \right\|^{2}_{2} + \alpha \lt \left\| f(x_{i}^{a}) - f(x_{i}^{n}) \right\|^{2}_{2} \tag{1} ∥f(xia)−f(xip)∥22+α<∥