![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
知识蒸馏
文章平均质量分 92
一只红轴
这个作者很懒,什么都没留下…
展开
-
【论文阅读】ICLR 2023 Oral Towards Understanding Ensemble, Knowledge Distillation and Self-Distillation
在深度学习中理解集成、知识蒸馏和自蒸馏。这篇文章是ICLR2023的oral,作者是来自微软的朱泽园和李远志。主要对深度学习中集成学习、知识蒸馏和自蒸馏方法进行了分析,它引入了一个新的数据的多视角,用来理解知识蒸馏。作者认为对于自然的多视图结构,没有蒸馏的情况下神经网络只能训练为依赖部分特征,但是蒸馏可以缓解这个问题。这篇文章提供了证明这一点的一个简化示例,能够有助于更好地理解知识蒸馏的有效性。原创 2024-04-19 20:43:11 · 725 阅读 · 0 评论 -
【论文阅读】NIPS 2023 On student-teacher deviations in distillation: does it pay to disobey?
关于蒸馏中的师生偏差:不服从是不是值得的?google的一篇文章,nips2023。主要研究了一个现象,就是学生模型和教师模型的表现不一致的问题。发表地点:NIPS 2023;论文下载链接:https://arxiv.org/pdf/2301.12923.pdf不完全复制老师的预测可能是有益的:当较小的模型(学生)向较大的模型(老师)学习时,如果学生不完全复制老师的预测可能会更好,尤其是当老师不太自信的时候。这可以帮助防止学生发现老师的错误,并使学生的学习过程更加稳健。中途改变训练方法可能会有所帮助。原创 2024-04-16 20:19:44 · 1406 阅读 · 0 评论 -
多教师知识蒸馏综述-分类(Knowledge Distillation and Student-Teacher Learning for Visual Intelligence)
虽然在常见的S-T KD范式下已经取得了令人印象深刻的进展,即知识从一个大容量的教师网络转移到一个学生网络。在这种情况下,知识能力相当有限,为此,一些工作探索从多个老师或一群老师那里学习一个便携式学生。在实践中,学生不仅向一个老师学习,而是学习知识的概念,有来自同一任务或不同任务的指导。通过这种方式,学生可以合并和吸收来自多个教师网络的各种知识表示的插图,并构建一个全面的知识系统。因此,人们提出了许多新的KD方法。原创 2023-12-06 22:18:03 · 2517 阅读 · 0 评论 -
【自用】结构知识蒸馏有关论文
还能实现模型和数据的分离,达到保护隐私数据的目的.知识蒸馏在人工智能各个领域发挥着越来越重要的作用,是解决很多实际问题的一种通用手段.本文将近些年来知识蒸馏的主要研究成果进行梳理并加以总结,分析该领域所面临的挑战,详细阐述知识蒸馏的学习框架,从多种分类角度对知识蒸馏的相关工作进行对比和分析,介绍了主要的应用场景,在最后对未来的发展趋势提出了见解.具体来说,我们的方法利用基于注意力的元网络来学习特征之间的相对相似性,并应用已识别的相似性来控制所有可能对的蒸馏强度。此外,基于类别中心的类别间关系是粗粒度的。原创 2023-11-30 21:46:25 · 119 阅读 · 0 评论 -
Explicit and implicit knowledge distillation via unlabeled data 论文阅读笔记
对于原始数据集不可用的场景,无数据知识蒸馏是一项具有挑战性的模型轻量级任务。以前的方法需要大量额外的计算成本来更新一个或多个生成器,它们幼稚的模拟学习导致蒸馏效率较低。在此基础上,我们首先提出了一种有效的无标记样本选择方法来取代高计算生成器,并着重于提高所选样本的训练效率。然后,设计了一种降类机制来抑制由数据域偏移引起的标签噪声。最后,我们提出了一种结合显式特征和隐式结构关系的蒸馏方法来提高蒸馏的效果。实验结果表明,该方法能快速收敛,收敛速度能获得更高的精度。原创 2023-11-26 20:08:44 · 50 阅读 · 1 评论