Relational Knowledge Distillation解读

最新推荐文章于 2025-03-18 09:18:23 发布

coasxu

最新推荐文章于 2025-03-18 09:18:23 发布

阅读量3.5k

点赞数 2

分类专栏： # 深度学习文章标签：知识蒸馏机器学习深度学习人工智能

本文链接：https://blog.csdn.net/weixin_44633882/article/details/108927033

版权

深度学习专栏收录该内容

14 篇文章

订阅专栏

这篇博客介绍了在知识蒸馏中，作者提出通过考虑样本间的关系（如距离和角度）进行知识转移，而非单一特征。Relational Knowledge Distillation (RKD)方法强调了关系信息在迁移学习中的优势，并通过distance-wise和angle-wise loss实现。实验结果显示，这种方法在metric learning、图像分类和少数样本学习中优于传统的个体知识蒸馏（IKD）。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Relational Knowledge Distillation解读

Relational Knowledge Distillation

Relational Knowledge Distillation

Conference: CVPR2019
Created: Oct 3, 2020 4:21 PM
Last Edit Time: Oct 5, 2020 11:21 AM
Property: Knowledge Distillation

Title

W. Park, D. Kim, Y. Lu, and M. Cho, ‘Relational Knowledge Distillation’, arXiv:1904.05068 [cs], May 2019, Accessed: Sep. 12, 2020. [Online]. Available: http://arxiv.org/abs/1904.05068.

Summary

知识蒸馏任务中，作者提出迁移样本间的关系（结构信息）会优于迁移单个样本的特征，例如：两个样本间的距离，三个样本间的角度。

Research Objective

知识蒸馏：将大模型的知识迁移小模型中。

Problem Statement

如何将知识从大模型迁移到小模型，过去的方法考虑单个样本在大模型和小模型间的迁移，本文作者提出，迁移样本间的关系（结构信息）会优于迁移单个样本特征。基于这一思想，我们还需要思考衍生问题：样本间的关系（结构信息）该如何表示。

在这里插入图片描述

传统KD和Relational KD的对比

过去的方法怎么考虑知识蒸馏？或者说，如何进行单样本间的知识蒸馏呢？
在这里插入图片描述

$l$ 作为惩罚Teacher和Student间差异的损失函数，对于 $l$ 来说，有以下几种做法：

(1) Hinton et al中使用softmax前的结果 $f_T$ 和 $f_S$ 作为输入，根据公式(2)计算KL散度来度量两个输出的差异。

在这里插入图片描述

(2) Romero et al使用隐藏层激活函数的结果 $f_T$ 和 $f_S$ 进行知识迁移， $l$ 选择了平方欧式距离，见公式(3)（由于Student隐层输出的维度一般小于Teacher，所以需要一个映射 $\beta$ ）
在这里插入图片描述
以上这些方法都被称为Individual KD(IKD)，表示样本间的知识蒸馏。