CONTRASTIVE REPRESENTATION DISTILLATION

ABSTRACT

        我们常常希望将表征性知识从一个神经网络转移到另一个神经网络。例如,将一个大的网络提炼成一个较小的网络,将知识从一种感觉模态传递到另一种感觉模态,或者将一组模型集成到一个单独的估计器中。知识蒸馏,这些问题的标准方法,最小化teacher与student网络的概率输出之间的KL散度。作者证明这一目标忽视了teacher网络的重要结构知识。这激发了另一个目标,通过这个目标,作者训练学生从老师对数据的描述中获取更多的信息。我们把这个目标称为对比学习。实验表明,我们得到的新目标在各种知识转移任务(包括单模型压缩、集成蒸馏和跨模态转移)上的性能优于知识蒸馏和其他前沿蒸馏器。我们的方法设置了一个新的状态,在许多迁移任务中设置了一个新的 state-of-the-art,有时甚至超过teacher network与knowledge distillation相结合。

Introduction

        Knowledge distillation从一个深度学习模型(teacher network)中将知识迁移到另一个(student network),最初是将大型繁琐的模型转换成更小、更快的模型,而不会失去太大的泛化能力,是通过最小化两个网络输出的KL散度实现的。当输出是一个分布,例如一个类上的概率质量函数时,这个公式是有直观意义的。当然,我们通常希望传递关于表示的知识。例如在交叉模态的蒸馏问题中,我们可能希望将图像处理网络的表示形式转换为声音,使图像的深度特征与相关的声音或深度特征高度相关,这种情况下的KL散度是没有定义的。
        知识表示是结构化的——维度之间表现出很强的依赖性,原始的KD将所有维度视为独立的。 ψ ( y S , y T ) = P i φ i ( y i S , y i S ) ψ(y^S, y^T) = P_i φ_i(y_i^S , y_i^S ) ψ(yS,yT)=Piφi(yiS,yiS), y S y^S yS是student网络的输出, y T y^T yT是teacher网络的输出,但这个不能表示维度之间的关系。
我们希望目标能够捕获相关性和高阶输出相关性。为了实现这一点,在本文中我们利用了对比目标族。近年来,这些目标函数被成功地用于密度估计和表示学习,特别是在自我监督环境中。在这里,我们使它们适应于从一个深层网络到另一个深层网络的知识升华的任务。
作者的目标是最大限度地降低teacher表示与student表示互信息之间的界限,并且发现这将在一些知识迁移任务中取得很好地性能。作者猜想着是因为对比目标能够迁移teacher表示地所有信息,而不仅仅是迁移条件独立的输出类别概率的知识。令人惊讶的是,对比目标竟然甚至改进了最初提出的提取类概率知识任务的结果,作者相信这是因为不同类别概率的相关性包含了使学习问题正则化的有用信息。 我们的论文建立了两个主要独立发展的文献之间的联系:知识蒸馏和表征学习。

Contributions

1.一个基于对比的目标,在深层网络间传递知识。
2.模型压缩、跨模态转移和集成蒸馏的应用。
3.制定12种最新distillation方法的基准;CRD的性能优于所有其他方法,例如,与原来的KD相比,平均相对改善了57%(Hinton等人,2015年),令人惊讶的是,它的性能达到了第二好。

Related Work

Attention transfer专注于网络的特征映射,而不是输出日志,是在老师和学生特征图中引出类似的反应模式(attantion)。但是,这种方法只能合并具有相同空间分辨率的要素图,这是一个很大的限制,因为它需要具有非常相似架构的学生和教师网络。

Method

contrastive learning(对比学习)的主要思想是学习一个能将 “positive” pairs更接近并且可以将 “negative” pairs区分开的表示。

Contrastive Loss

见原论文
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值