DarkRank: Accelerating Deep Metric Learning via Cross Sample Similarities

DarkRank是一种基于深度度量学习的跨样本相似性学习方法,通过学习排序来迁移知识。它在行人重识别、图像检索和图像聚类任务上表现出色,提高了基线系统的性能。该方法引入了跨样本相似性作为有价值的知识源,通过软和硬转移策略进行知识迁移。实验表明,尽管独立使用DarkRank效果不如知识蒸馏,但与知识蒸馏结合可以提升精度。
摘要由CSDN通过智能技术生成

论文地址     论文翻译的博客

2018 AAAI,图森

针对问题

探讨现有知识蒸馏方法中监督信息soft target忽略的“知识”

all these methods miss another valuable treasure – the relationships (similarities or distances) across different samples.

本文创新点:

(1)提出了一种新的知识——cross sample similarities ;知识从哪来?deep metric learning model(度量学习,主要用于无监督(聚类)中对样本距离进行度量);

(2)怎么迁移知识?learning to rank思想,利用teacher网络和student网络所提取特征的排序的相似性构建损失函数

网络结构示意图

达到的效果:

在度量学习任务上进行测试,包括行人重新识别,图像检索和图像聚类。在baseline上提升明显,并且与其他现有的方法(例如基于soft target的知识蒸馏)结合也会带来提升

局限性:还是在最后一层上加损失函数的方法,可能会比较难训

Related works
1. Deep Metric Learning 度量学习

流程:先通过深度神经网络提取特征,再计算特征的欧式距离

关键:增大类间距离,减小类内距离,常用于聚类

常用实现手段:设计损失函数,Classification loss,Verification loss,Triplet loss,center loss

2. Knowledge Transfer 知识迁移

最早2006,first proposed to approximate an ensemble of classifiers with a single neural network

Hinton 2014:软标签比one-hot标签包含更多信息

挖掘其他知识:(1) 隐藏在feature map 中:FitNets(Romero 2015), Attention Transfer(Zagoruyko and Komodakis 2017) and Neuron Selectivity Transfer(Huang and Wang 2017),(2)利用梯度2017NIPS_Sobolev training for neural networks

3. Learning to Rank 排序学习

问题定义:given a query, rank a list of samples according to their similarities

方法分类:pointwise,pairwise,listwise 

本文利用 listwise: teacher network和student network分别提取特征(维度不一定相等),计算打分函数和相似性转移损失函数,老师网络的知识替代传统排序学习中的ground truth。

注意:并没有真实的排序label,而是用网络的特征来计算相似性score

Background

参考排序学习中的两种方法设置损失函数:

ListNet       Learning to rank: from pairwise approach to listwise approach. 2007. In ICML.

ListMLE      Listwise approach to learning to rank: theory and algorithm. 2008. In ICML

给定query q和一系列candidate x,对每一种可能的排序分配概率。

排序pai={4,3,1,2}表示第4个样本x排在第一位,第3个样本x排在第2位…

X维度p*n,第i列xi维度为p(特征维度),则每一种排序的概率为


S(x)表示样本x与q之间距离的分数。

ListNet   损失函数:


ListMLE   损失函数:


本文用老师网络的知识替代ground truth构成损失函数。

Our Method
1.    Similarity Score Function Based on Embedded Features

在传统的图像分类中,卷积神经网络倒数第二层的输出通常连接到具有 Softmax 激活的完全连接层,用于预测图像所属的类或类别。如果剥离掉这个分类层的网络,那么就只剩下一个网络,为每个样本输出一个特征向量,通常每个样本有 512 或 1024 个特征。这就是所谓的embedding features

similarity score function ——基于embedding features的欧式距离,增加两个超参数(后面有实验分析了超参数作用)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>