【自用】结构知识蒸馏有关论文

备忘录

在这里插入图片描述

1、Improving knowledge distillation via an expressive teacher

通过富有表现力的教师提高知识提炼能力

知识蒸馏 (KD) 是一种广泛使用的网络压缩技术,用于寻找与其重教师网络行为相似的轻量级学生网络。以前的研究主要集中在训练学生模仿教师的表征空间。然而,如何成为一名好老师却鲜为人知。我们发现,如果教师在现实世界中捕捉真实数据背后的知识的能力较弱,学生甚至无法从老师那里学习知识。受此启发,我们提出了一种类间相关性正则化,以训练教师捕捉类之间更明确的相关性。此外,我们强制学生模仿老师的班级间相关性。在四个公开基准上进行了图像分类任务的广泛实验。例如,当师生网络为ShuffleNetV2-1.0和ShuffleNetV2-0.5时,我们提出的方法在Tiny ImageNet中实现了42.63%的top-1错误率。(c) 2021 年爱思唯尔 B.V.保留所有权利。

2、Show, Attend and Distill: Knowledge Distillation via Attention-based Feature Matching

展示、参加和提炼:通过基于注意力的特征匹配进行知识提炼

知识提炼从预先训练的教师网络中提取一般知识,并为目标学生网络提供指导。大多数研究手动将教师和学生的中间特征联系起来,并通过预定义的链接传递知识。然而,手动选择往往会构建无效的环节,从而限制蒸馏的改进。人们试图解决这一问题,但在实际情况下确定有效的联系仍然具有挑战性。在本文中,我们介绍了一种有效且高效的特征蒸馏方法,该方法利用了教师的所有特征级别,而无需手动选择链接。具体来说,我们的方法利用基于注意力的元网络来学习特征之间的相对相似性,并应用已识别的相似性来控制所有可能对的蒸馏强度。因此,我们的方法比以前的方法更有效地确定合格的链接,并在模型压缩和迁移学习任务上提供了更好的性能。进一步的定性分析和烧蚀研究描述了我们的方法如何有助于更好的蒸馏。实现代码可以在 open sourced(1) 上找到。

3、Customizing a teacher for feature distillation

自定义教师进行特征提炼

知识蒸馏是一种通过从繁琐的教师网络转移课堂概率知识来训练轻量级网络的方法。然而,仅传递类概率知识会限制蒸馏性能。因此,已经提出了几种方法在特征图级别转移教师的知识。在本文中,我们重新审视了特征蒸馏方法,发现教师的架构/能力越大,学生模仿的难度就越大。因此,特征蒸馏方法无法充分发挥其潜力。为了解决这个问题,提出了一种新颖的端到端蒸馏框架,称为“定制特征蒸馏教师”(CTFD),以培训教师与学生更加兼容。此外,我们还将定制的教师应用于三种特征蒸馏方法。此外,数据增强被用作训练学生提高其泛化性能的技巧。对图像分类、迁移学习和目标检测3个计算机视觉任务进行了大量的实证实验和分析,以验证所提方法的有效性。

4、Model Compression for Deep Neural Networks: A Survey

深度神经网络的模型压缩:一项调查

目前,随着深度学习的快速发展,深度神经网络(DNNs)已广泛应用于各种计算机视觉任务中。然而,在追求性能的过程中,高级 DNN 模型变得更加复杂,这导致了较大的内存占用和较高的计算需求。因此,这些模型很难实时应用。为了解决这些问题,模型压缩已成为研究的重点。此外,模型压缩技术在边缘设备上部署模型方面发挥着重要作用。本研究分析了各种模型压缩方法,以帮助研究人员减少设备存储空间,加快模型推理速度,降低模型复杂性和训练成本,并改进模型部署。因此,本文总结了模型压缩的最新技术,包括模型剪枝、参数量化、低秩分解、知识蒸馏和轻量级模型设计。此外,本文还讨论了未来工作的挑战和方向。

5、Generalized Knowledge Distillation via Relationship Matching

通过关系匹配进行广义知识提炼

训练有素的深度神经网络(又名“老师”)的知识对于学习类似的任务很有价值。知识提炼从教师身上提取知识,并将其与目标模型(又称“学生”)整合,从而扩展了学生的知识,提高了学生的学习效能。我们没有强迫老师和学生做同样的任务,而是从一般标签空间训练的老师那里借用知识——在这个“广义知识蒸馏(GKD)”中,“老师和学生的班级可能相同,完全不同,或部分重叠。我们声称实例之间的比较能力是跨任务线程知识的重要因素,并提出了 RElationship FacIlitated Local cLassifiEr Distillation (ReFilled) 方法,该方法解耦了嵌入和顶层分类器的 GKD 流。特别是,与协调模型之间的实例标签置信度不同,ReFilled 要求教师对学生向前推送的硬元组进行重新加权,然后匹配实例之间的相似度比较级别。基于教师模型的嵌入诱导分类器对学生的分类置信度进行监督,并自适应地强调教师最相关的监督。当教师的班级从相同到完全不重叠的集合时,ReFilled 表现出很强的辨别能力。它还在标准知识蒸馏、一步增量学习和少样本学习任务上实现了最先进的性能。

6、Marginal samples for knowledge distillation

用于知识蒸馏的边际样本

以前的工作,如《类别结构知识蒸馏》,提出通过引入基于类别中心的类别内和类别间关系来构建知识蒸馏的类别关系。但是,当使用错误分类样本的特征表示来形成类别中心时,类别中心可能不可靠。此外,基于类别中心的类别间关系是粗粒度的。在本文中,我们提出了一种边际样本知识蒸馏(MSKD)方法,通过引入标签过滤和边际样本来构建可靠的类别中心和细粒度的类别间关系。标签过滤从类别中心的计算中删除错误分类样本的特征表示,以创建无偏且可靠的类别中心。边际样本被定义为接近类别边界的正确分类样本。边际样本包含其他类别的信息,并形成细粒度的类别边界,用于知识蒸馏。在不同数据集和师生架构设置上的广泛实验表明,与密切相关的方法相比,该方法具有优异的性能。(c) 2022 年爱思唯尔 B.V.保留所有权利。

7、TC3KD: Knowledge distillation via teacher-student cooperative curriculum cus

TC3KD:通过师生合作课程定制进行知识提炼

知识提炼旨在通过从大规模教师网络转移一些知识来提高轻量级学生网络的性能。大多数现有的知识蒸馏方法都依赖于传统的训练策略,即从训练集中随机采样的小批量序列。受课程学习的启发,我们提出了一种通过师生合作课程定制进行知识提炼的新方法。具体来说,设计了教师和快照学生的加权集合来衡量样本的难度。在难度测量器中动态更新整体权重和快照学生,以定制适当的课程,以指导不同训练阶段的学生网络。采用“取平衡”的训练调度器,保持训练稳定性,降低排名成本。在CIFAR-100、CINIC-10和ImageNet上的大量实验验证了我们方法的有效性。作为一种独立的蒸馏训练策略,所提出的师生合作课程定制范式也可以与主流知识蒸馏方法相结合,提高其表现。(c) 2022年由Elsevier B.V.出版

8、Improving Knowledge Distillation With a Customized Teacher

通过定制教师改进知识蒸馏

知识蒸馏 (KD) 是一种广泛使用的方法,用于将知识从繁琐的网络(也称为教师)转移到轻量级网络(也称为学生)。然而,即使不同教师的准确率相似,固定学生的准确率却有很大不同。我们发现,具有更分散的次要软概率的教师更有资格发挥自己的作用。因此,引入一个指标,即次级软概率的标准差西格玛来选择教师。此外,为了使教师的次级软概率更加分散,提出了一种称为双重监督下教师预培训(PTDS)的新方法,用于在双重监督下对教师进行预培训。此外,我们提出了一种非对称变换函数(ATF),以进一步提高预训练教师次级软概率的离散程度。PTDS 和 ATF 的结合被称为定制教师的知识蒸馏 (KDCT)。对图像分类、迁移学习和语义分割等3项计算机视觉任务进行了广泛的实证实验和分析,以证实KDCT的有效性。

9、Knowledge Distillation and Student-Teacher Learning for Visual Intelligence: A Review and New Outlooks

视觉智能的知识提炼与师生学习:回顾与新展望

近年来,深度神经模型几乎在每个领域都取得了成功,甚至解决了最复杂的问题陈述。然而,这些模型的规模庞大,有数百万(甚至数十亿)个参数,需要大量的计算能力,并且无法部署在边缘设备上。此外,性能提升高度依赖于冗余标记数据。为了实现更快的速度并处理由于缺乏标记数据而引起的问题,已经提出了知识蒸馏 (KD) 将从一个模型学习到另一个模型的信息。KD通常以所谓的“学生-教师”(S-T)学习框架为特征,并已广泛应用于模型压缩和知识转移。本文是关于近年来正在积极研究的 KD 和 S-T 学习。首先,我们旨在解释 KD 是什么以及它如何/为什么起作用。然后,我们对KD方法以及通常用于视觉任务的S-T框架的最新进展进行了全面调查。总的来说,我们调查了推动该研究领域的一些基本问题,并彻底概括了研究进展和技术细节。此外,我们系统地分析了KD在视觉应用中的研究现状。最后,我们讨论了现有方法的潜力和开放性挑战,并展望了KD和S-T学习的未来发展方向。

10、A Survey of Knowledge Distillation in Deep Learning

深度学习中知识蒸馏研究综述

在人工智能迅速发展的今天,深度神经网络广泛应用于各个研究领域并取得了巨大的成功,但也同样面临着诸多挑战.首先,为了解决复杂的问题和提高模型的训练效果,模型的网络结构逐渐被设计得深而复杂,难以适应移动计算发展对低资源、低功耗的需求.知识蒸馏最初作为一种从大型教师模型向浅层学生模型迁移知识、提升性能的学习范式被用于模型压缩.然而随着知识蒸馏的发展,其教师-学生的架构作为一种特殊的迁移学习方式,演化出了丰富多样的变体和架构,并被逐渐扩展到各种深度学习任务和场景中,包括计算机视觉、自然语言处理、推荐系统等等.另外,通过神经网络模型之间迁移知识的学习方式,可以联结跨模态或跨域的学习任务,避免知识遗忘;还能实现模型和数据的分离,达到保护隐私数据的目的.知识蒸馏在人工智能各个领域发挥着越来越重要的作用,是解决很多实际问题的一种通用手段.本文将近些年来知识蒸馏的主要研究成果进行梳理并加以总结,分析该领域所面临的挑战,详细阐述知识蒸馏的学习框架,从多种分类角度对知识蒸馏的相关工作进行对比和分析,介绍了主要的应用场景,在最后对未来的发展趋势提出了见解.

11、Complementary Relation Contrastive Distillation

互补关系对比蒸馏

知识提炼旨在将表征能力从教师模型转移到学生模型。以前的方法侧重于单个表示蒸馏或样品间相似性保持。虽然我们认为样本间关系传达了丰富的信息,需要以更有效的方式进行提炼。在本文中,我们提出了一种新的知识蒸馏方法,即互补关系对比蒸馏(CRCD),将结构知识从教师转移到学生。具体来说,我们以锚点的方式估计相互关系,并在其对应的锚师关系的监督下提炼锚生关系。为了使其更加稳健,相互关系由两个互补元素建模:特征及其梯度。此外,锚师关系分布和锚生关系分布之间的互信息下界通过关系对比损失最大化,既可以提炼样本表示,也可以提炼样本间关系。在不同基准上的实验证明了我们提出的CRCD的有效性。

自用hh,不过感觉很可能没有一篇有用,待看

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值