2018 AAAI,图森
针对问题
探讨现有知识蒸馏方法中监督信息soft target忽略的“知识”
all these methods miss another valuable treasure – the relationships (similarities or distances) across different samples.
本文创新点:
(1)提出了一种新的知识——cross sample similarities ;知识从哪来?deep metric learning model(度量学习,主要用于无监督(聚类)中对样本距离进行度量);
(2)怎么迁移知识?learning to rank思想,利用teacher网络和student网络所提取特征的排序的相似性构建损失函数
网络结构示意图

达到的效果:
在度量学习任务上进行测试,包括行人重新识别,图像检索和图像聚类。在baseline上提升明显,并且与其他现有的方法(例如基于soft target的知识蒸馏)结合也会带来提升
局限性:还是在最后一层上加损失函数的方法,可能会比较难训
Related works
1. Deep Metric Learning 度量学习
流程:先通过深度神经网络提取特征,再计算特征的欧式距离
关键:增大类间距离,减小类内距离,常用于聚类
常用实现手段:设计损失函数,Classification loss,Verification loss,Triplet loss,center loss
2. Knowledge Transfer 知识迁移
最早2006,first proposed to approximate an ensemble of classifiers with a single neural network
Hinton 2014:软标签比one-hot标签包含更多信息
挖掘其他知识:(1) 隐藏在feature map 中:FitNets(Romero 2015), Attention Transfer(Zagoruyko and Komodakis 2017) and Neuron Selectivity Transfer(Huang and Wang 2017),(2)利用梯度2017NIPS_Sobolev training for neural networks
3. Learning to Rank 排序学习
问题定义:given a query, rank a list of samples according to their similarities
方法分类:pointwise,pairwise,listwise
本文利用 listwise: teacher network和student network分别提取特征(维度不一定相等),计算打分函数和相似性转移损失函数,老师网络的知识替代传统排序学习中的ground truth。
注意:并没有真实的排序label,而是用网络的特征来计算相似性score
Background
参考排序学习中的两种方法设置损失函数:
ListNet Learning to rank: from pairwise approach to listwise approach. 2007. In ICML.
ListMLE Listwise approach to learning to rank: theory and algorithm. 2008. In ICML
给定query q和一系列candidate x,对每一种可能的排序分配概率。
排序pai={4,3,1,2}表示第4个样本x排在第一位,第3个样本x排在第2位…
X维度p*n,第i列xi维度为p(特征维度),则每一种排序的概率为

S(x)表示样本x与q之间距离的分数。
ListNet 损失函数:

ListMLE 损失函数:

本文用老师网络的知识替代ground truth构成损失函数。
Our Method
1. Similarity Score Function Based on Embedded Features
在传统的图像分类中,卷积神经网络倒数第二层的输出通常连接到具有 Softmax 激活的完全连接层,用于预测图像所属的类或类别。如果剥离掉这个分类层的网络,那么就只剩下一个网络,为每个样本输出一个特征向量,通常每个样本有 512 或 1024 个特征。这就是所谓的embedding features。
similarity score function ——基于embedding features的欧式距离,增加两个超参数(后面有实验分析了超参数作用)

DarkRank是一种基于深度度量学习的跨样本相似性学习方法,通过学习排序来迁移知识。它在行人重识别、图像检索和图像聚类任务上表现出色,提高了基线系统的性能。该方法引入了跨样本相似性作为有价值的知识源,通过软和硬转移策略进行知识迁移。实验表明,尽管独立使用DarkRank效果不如知识蒸馏,但与知识蒸馏结合可以提升精度。
最低0.47元/天 解锁文章
2486

被折叠的 条评论
为什么被折叠?



