Towards Oracle Knowledge Distillation with Neural Architecture Search论文笔记

本文提出了一种Oracle知识蒸馏框架,结合神经架构搜索(NAS),有效提升学生网络的表达能力和精度。通过摒弃无效的教师模型预测,寻找最优学生模型,解决知识蒸馏中的容量瓶颈问题,实现更高精度的模型压缩。
摘要由CSDN通过智能技术生成

目录

 

Introduction

Approach

提出了基于Oracle的知识蒸馏框架,并引入了Oracle知识蒸馏损失Loss

知识蒸馏框架下的最佳模型搜索

LSTM控制器

Summary


Introduction

 

知识蒸馏在2015年被提出,核心概念就是从一个集成网络模型或者大模型移植到一个容量较小的模型中,同时精度也不会有太多下降。知识蒸馏定义了一个新的学习范式,不同于以往的深度学习模型,知识都是直接从ground truth中提取,而在知识蒸馏中,学生网络去学习教师网络从而去逼近教师网络的精度。知识蒸馏不仅可以学习教师网络的输出标签,还可以学习到教师网络的特征表达,从而更加逼近教师的模型表达能力。然而,随着教师模型变复杂亦或是教师集成模型数量的增多,学生网络大多达不到教师网络的精度,反而差距越来越大。这是由于学生网络并不能充分利用教师模型。换句话说,学生网络中有限的容量成为知识蒸馏的瓶颈,这意味着增加学生模型的能力将有助于减少师生之间的表现差距。

本文提出了一种称作是Oracle知识蒸馏的方式,它可以有效地提升学生网络的模型表达能力和精度。往常的知识蒸馏学习算法将学生网络固定,而本文中可以对学生网络进行调节,从而找到自适应模型大小的最优结构和操作。同时,由于Oracle知识蒸馏会进一步加大容量差距,因此我们将神经架构搜索与Oracle知识蒸馏相结合。先前提到,学生网络的容量是知识蒸馏的瓶颈,我们的目的是尽可能地缩小由于模型容量而导致的模型表达差距。将NAS与Oracle知识蒸馏相结合可以找到具有足够容量的最优学生模型,缩小了学生与教师之间的模型容量差距,达到更高的精度。需要提到的是,在实验中,本文的算法会寻找比backbone学生网络稍大的模型进行有效的知识蒸馏。

 

 

Approach

 

提出了基于Oracle的知识蒸馏框架,并引入了Oracle知识蒸馏损失Loss

最近,对于图神经网络的研究日益深入,引起了广泛关注。图神经网络是一种能够对图数据进行建模和分析的神经网络模型。它可以处理任意结构的图形数据,如社交网络、蛋白质互作网络等。 在过去的几年中,研究者们提出了许多图神经网络的模型和方法。然而,这些方法仍然面临一些挑战,例如有效地处理大型图形数据、学习高质量的图嵌入表示以及推理和预测复杂的图结构属性等。 为了克服这些挑战,研究人员开始通过增加神经网络的深度来探索更深的图神经网络模型。深度模型具有更强大的表达能力和学习能力,可以更好地捕捉图数据中的关系和模式。这些深层图神经网络可以通过堆叠多个图神经网络层来实现。每个图神经网络层都会增加一定的复杂性和抽象级别,从而逐渐提高图数据的表达能力。 除了增加深度外,研究人员还提出了一些其他的改进来进一步提高图神经网络的性能。例如,引入注意力机制可以使模型能够自动地选择重要的节点和边来进行信息传播。此外,研究人员还研究了如何通过引入图卷积操作来增强图数据的局部性,从而提高图神经网络模型的效果。 综上所述,对于更深层的图神经网络的研究将在处理大规模图形数据、学习高质量的图表示以及进行复杂图结构属性的推理方面取得更好的性能。随着深度图神经网络的推广和应用,我们可以预见它将在许多领域,如社交网络分析、推荐系统和生物信息学中发挥重要作用,为我们带来更多的机遇和挑战。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

易生804

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值