蒸馏
文章平均质量分 78
蒸馏经典论文代码解读
蓝鲸鱼BlueWhale
香港中文大学计算机视觉方向博士在读
展开
-
蒸馏论文十(Structured Knowledge Distillation for Dense Prediction)
在本文中,我们将介绍知识蒸馏论文Structured Knowledge Distillation for Dense Prediction。在论文中,考虑到稠密预测是一个结构化预测问题,本文提出将结构化知识从教师网络提取到学生网络。具体来说,我们研究了两种结构化蒸馏方案:成对蒸馏,通过建立静态图来提取成对相似点运用对抗性训练来提炼整体知识的整体提炼法。...原创 2021-11-09 22:00:49 · 1179 阅读 · 0 评论 -
蒸馏论文九(Knowledge Adaptation for Efficient Semantic Segmentation)
本文介绍语义分割蒸馏论文:Knowledge Adaptation for Efficient Semantic Segmentation。在论文中,作者提出了一种新的面向语义分割的知识提取方法,如下图所示:整个框架中,教师网络输出分辨率较大的特征(如8s),学生网络输出较小的特征(如16s总步幅)。知识的定义分为两部分:第一部分将知识从教师网络转化为信息丰富的压缩空间。通过训练自编码器将知识压缩成一个紧凑的格式,使学生网络更容易学习,否则由于固有结构的差异就会困难得多。第二部分旨在从教师网络中原创 2021-11-08 20:02:11 · 390 阅读 · 0 评论 -
Transformer论文解读三(distillation token)
最近Transformer在CV领域很火,Transformer是2017年Google发表的Attention Is All You Need中主要是针对自然语言处理领域提出的,后被拓展到各个领域。本系列文章介绍Transformer及其在各种领域引申出的应用。本文介绍的Training data-efficient image transformers & distillation through attention将蒸馏应用于Transformer,在没有外部数据预选训练数据的情况下,可以在原创 2021-11-01 15:40:04 · 1702 阅读 · 1 评论 -
知识蒸馏经典论文详解
Knowledge from logits蒸馏论文一(knowledge distillation):利用soft targetKnowledge from intermediate layers蒸馏论文二(Attention Transfer):利用注意力图蒸馏论文三(Similarity-Preserving):利用特征图内在相似性蒸馏论文五(Neuron Selectivity Transfer):利用教师网络中间层神经元的激活分布蒸馏论文六(Probabilistic Knowledge原创 2021-08-03 15:36:26 · 1913 阅读 · 1 评论 -
网络结构搜索论文
1. AutoSlim: Towards One-Shot Architecture Search for Channel Numbers作者研究了如何在神经网络中设置通道数,以在有限的资源下获得更好的准确性。提出了一种名为AutoSlim的方法,即训练单个可瘦身网络来近似不同通道配置的网络精度,示意图如下:通道配置搜索的目标是优化每一层的通道数量,使通道配置优化后的网络体系结构在资源受限的情况下能够达到更好的精度。作者的方法有两个基本步骤:给定一个backbone,我们首先为几个阶段(例如10%原创 2021-09-27 15:50:30 · 811 阅读 · 1 评论 -
蒸馏论文八(分类蒸馏论文八篇)
本文介绍了分类蒸馏的八篇论文自蒸馏Be Your Own Teacher: Improve the Performance of Convolutional Neural Networks via Self DistillationSelf Distillation文中提出的自蒸馏方法,相比于传统蒸馏方法来说,无需提前训练教师网络,而是在学生网络训练的过程中进行自蒸馏,不仅可以训练出更高精度的小网络,而且花费的时间更少。文中使用的自蒸馏方法如下:如图所示,一个ResNet根据其深度分为四个部分原创 2021-09-02 17:46:28 · 1575 阅读 · 3 评论 -
目标检测论文解读四(检测蒸馏论文三篇)
在论文中,作者使用蒸馏来训练基于CNN的检测器,不需要ImageNet预训练。具体来说:从整个feature map中采样的特征进行模拟,并使用变换层将小网络中的特征映射到大网络的同维上。在训练小网络时,优化了两个网络的特征图上来自同一区域的特征之间的相似性。...原创 2021-08-11 16:22:18 · 635 阅读 · 1 评论 -
蒸馏论文六(Probabilistic Knowledge Transfer)
本文主要介绍一种知识蒸馏方法(Probabilistic Knowledge Transfer).1. 核心思想作者主要采用概率知识转移的思想:在学生模型中特征向量的分布应该与在老师模型特征向量的分布近似。网络的输出结果可以被视为概率,通过核函数之后,利用KL散度函数计算损失,然后将损失反向传递。2. 损失函数可以采用的核函数有:文中作者采用的是cos核函数。老师和学生模型的条件概率分布为:总的损失为学生和老师概率的散度之和:class PKT(nn.Module): ""原创 2021-08-03 14:42:15 · 591 阅读 · 2 评论 -
蒸馏论文七(Variational Information Distillation)
本文介绍一种知识蒸馏的方法(Variational Information Distillation)。1. 核心思想作者定义了将互信息定义为:如上式所述,互信息为 = 教师模型的熵值 - 已知学生模型的条件下的教师模型熵值。我们有如下常识:当学生模型已知,能够使得教师模型的熵很小,这说明学生模型以及获得了能够恢复教师模型所需要的“压缩”知识,间接说明了此时学生模型已经学习的很好了,也就是说明上式中的H(t|s)很小,从而使得互信息I(t;s)会很大。因此,就可以通过最大化互信息的方式来进行蒸馏学原创 2021-08-03 15:21:16 · 1142 阅读 · 3 评论 -
蒸馏论文五(Neuron Selectivity Transfer)
本文介绍了一种知识蒸馏的方法(Neuron Selectivity Transfer)1. 主要思想如图所示为神经元选择性迁移的架构。学生网络不仅利用真正的标签训练,而且还模仿了教师网络中间层的激活分布。图中的每个点或三角形表示其对应的滤波器的激活图。2. 损失函数最大平均差异(MMD)用作损失函数来衡量教师和学生特征之间的差异。MMD的想法就是求两个随机变量在高维空间中均值的距离可以应用内核技巧展开,将上式子转化成如下形式:在应用中,上述x和y为学生网络和教师网络归一化后的特征图,因此:原创 2021-08-03 14:05:37 · 607 阅读 · 1 评论 -
蒸馏论文三(Similarity-Preserving)
本文介绍一种知识蒸馏的方法(Similarity-Preserving Knowledge Distillation)。本文针对的是分类任务,尝试通过“保留相似性”的手段来实现更好的蒸馏。1. 主要思想作者的构思主要基于一个核心前提:语义相似的输入趋向于在训练好的网络中产生相似的激活模式,反之亦然。基于此,作者提出了核心的假设:如果两个输入在教师网络中有着高度相似的激活,那么引导学生网络对该输入同样产生高的相似激活(反之亦然),将对于学生更好地学习老师网络有利。上图指示了CIFAR-10中1000原创 2021-08-02 16:13:44 · 1240 阅读 · 2 评论 -
蒸馏论文二(Attention Transfer)
本系列文章介绍一些知识蒸馏领域的经典文章。知识蒸馏:提取复杂模型有用的先验知识,并与简单模型特征结合算出他们的距离,以此来优化简单模型的参数,让简单模型学习复杂模型,从而帮助简单模型提高性能。1. Attention Transfer原理论文Paying more attention to attention主要通过提取复杂模型生成的注意力图来指导简单模型,使简单模型生成的注意力图与复杂模型相似。这样,简单模型不仅可以学到特征信息,还能够了解如何提炼特征信息。使得简单模型生成的特征更加灵活,不局限于复原创 2021-08-02 14:26:34 · 1333 阅读 · 3 评论 -
蒸馏论文一(knowledge distillation)
本文介绍知识蒸馏(Knowledge Distillation)。核心思想是通过迁移知识,从而通过训练好的大模型得到更加适合推理的小模型。文章的核心思想就是提出用soft target来辅助hard target一起训练,而soft target来自于大模型的预测输出:1、训练大模型:先用hard target,也就是正常的标签训练大模型。2、计算soft target:利用训练好的大模型来计算soft target。也就是大模型“软化后”再经过softmax的输出。3、训练小模型,在小模型的基础上原创 2021-07-31 20:07:38 · 3598 阅读 · 2 评论 -
蒸馏论文四(Relational Knowledge Distillation)
本文介绍一种知识蒸馏的方法(Relational Knowledge Distillation)。1. 核心思想作者提出迁移样本间的关系(结构信息)会优于迁移单个样本的特征。例如:两个样本间的距离,三个样本间的角度。传统KD和Relational KD的对比如下。2. 损失函数分为样本间距离损失和样本间角度损失两个部分。1.1 样本间距离损失样本间距离损失L为其中,fai为样本特征图间的距离损失函数采用的是Huber函数。它基本上是绝对值,在误差很小时会变为平方值。1.2 样本间原创 2021-08-03 10:16:24 · 1454 阅读 · 2 评论