（笔记）通过知识蒸馏和量化进行模型压缩MODEL COMPRESSION VIA DISTILLATION AND QUANTIZATION

最新推荐文章于 2025-04-11 21:30:00 发布

原创

最新推荐文章于 2025-04-11 21:30:00 发布

· 3.9k 阅读

3 ·

版权

文章标签：

#深度学习 #神经网络 #量化 #压缩

本文介绍了一种结合知识蒸馏和量化的模型压缩方法，包括两个算法：1) 将知识蒸馏损失引入量化训练过程；2) 训练量化集合以优化非线性量化。实验结果显示，使用更宽的ResNet-18模型能达到更好的压缩效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

（笔记）Model Compression via Distillation and Quantization

（笔记）Model Compression via Distillation and Quantization

原文链接：

https://arxiv.org/abs/1802.05668

代码：

https://github.com/antspy/quantized_distillation

摘要

主要介绍了两种算法。
1）加入知识蒸馏loss的量化训练。
2）训练量化集p。

算法一：加入知识蒸馏loss的量化训练

有一个浮点模型w，一个量化模型w^q，用量化模型计算前向loss（加上知识蒸馏的loss），对w^q计算梯度，用以更新浮点模型。每次前向计算之前用更新的浮点模型更新量化模型。
这里写图片描述

算法二：训练量化集p

此方法适合非线性量化。量化函数的输入为浮点模型参数w和量化集合p。训练在于优化量化集合p。
由量化函数、浮点模型w和量化集合p可得量化模型w^q，量化模型做前

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

yingpeng_zhong

关注关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

MODEL COMPRESSION VIA DISTILLATION AND QUANTIZATION

青灵_Yaffa的博客

04-27

895

MODEL COMPRESSION VIA DISTILLATION AND QUANTIZATIONAbstract1 INTRODUCTION2 PRELIMINARIES（准备工作）3 QUANTIZED DISTILLATION（量化蒸馏）4 DIFFERENTIABLE QUANTIZATION（可微量化）4.1 GENERAL DESCRIPTION（一般说明）5 COMPRESSION（压缩）6 EXPERIMENTAL RESULTS（实验结果）7 DISCUSSION（讨论） Abstra

【知识蒸馏+量化】（一）QKD: Quantization-aware Knowledge Distillation

梁瑛平的博客

08-20

1118

【蒸馏+量化】QKD: Quantization-aware Knowledge Distillation论文地址：主要问题：主要思路：具体实现：基本符号：Weight Quantizer：Activation Quantizer：量化感知知识蒸馏：自学阶段：协同学习：辅导学习：实验结果：论文地址： https://arxiv.org/abs/1911.12491 主要问题：量化和知识蒸馏方法被广泛用于减少深度神经网络的内存和功耗，特别是对于资源受限的边缘设备，虽然它们的组合很有希望满足这些要求，但它可

参与评论您还未登录，请先登录后发表或查看评论

MODEL COMPRESSION VIA DISTILLATION AND QUANTIZATION 论文笔记

weixin_30271335的博客

01-22

547

摘要　　深度神经网络（DNN）继续取得重大进展，解决从图像分类到翻译或强化学习的任务。受到相当大关注的领域的一个方面是在资源受限的环境中有效地执行深度模型，例如移动或嵌入式设备。本文重点讨论了这个问题，并提出了两种新的压缩方法，它们共同利用大型网络称为“教师”的权重量化和蒸馏，进入压缩的“学生”网络。我们提出的第一种方法称为量化蒸馏，并在训练过程中利用蒸馏，将蒸馏损失（相对于教师网络表...

深入浅出：大模型蒸馏技术原理详解

最新发布

easyaigx的博客

04-11

882

模型蒸馏是通过将大模型的知识迁移到小模型的一种方法。简单来说，蒸馏的目的是通过“蒸馏”大模型的知识，得到一个较小但仍具备相似表现的小模型。这一过程可以帮助我们减少计算资源和存储消耗，同时在某些场景下，蒸馏后的模型甚至可以提供比大模型更快的推理速度。模型蒸馏最早由Hinton等人在2015年提出，并在之后的研究中被广泛应用于深度学习的各类任务中。我们定义一个简单的教师模型和学生模型。教师模型较大，学生模型较小。

结合量化的知识蒸馏（Quantization Mimic）

AI Flash

08-28

7533

"Quantization Mimic Towards Very Tiny CNN for Object Detection"这篇文章通过将知识蒸馏（Knowledge Distillation）与量化技术（Model Quantization）有效结合，能够诱导训练生成纤细、但性能良好的目标检测网络（主干网络通道数少、层数浅的R-FCN或Faster RCNN）。Quantization Mim...

模型压缩剪枝蒸馏量化

Mr_Troy的博客

02-21

3277

开源项目与资源 PaddleSlim是百度提出的模型优化工具，包含在PaddlePaddle框架中，支持若干知识蒸馏算法，可以在teacher网络和student网络任意层添加组合loss，包括FSP loss，L2 loss，softmax with cross-entropy loss等。 PaddleSlim Github PaddleSlim Docs Distiller是Intel基于Pytorch开源的模型优化工具，支持Hinton等人提出的Knowledge distillation算

大模型推理加速调研（框架、方法）

qq_33287871的博客

01-05

866

大模型推理加速的目标是高吞吐量、低延迟。吞吐量为一个系统可以并行处理的任务量。延时，指一个系统串行处理一个任务时所花费的时间。调研了一些大模型推理的框架。近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，为了将大模型部署在端侧设备中，我们需要使用一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。量化（Quantization）剪枝（Pruning）知识蒸馏（Knowledge Distillation）

深度学习知识蒸馏、量化、剪枝学习笔记

weixin_39608351的博客

01-01

2032

1.网络最后一层(全连接层)的输出为类别得分scores(也加logits),使用sofxmax对logits映射为概率分布,且和为1,添加t参数,使网络概率分布更加平缓.如下为添加t参数方式. import numpy as np #原softmax函数,numpy实现 def softmax(x): x_exp = np.exp(x) return x_exp / np.sum(x_exp) output = np.array([0.1, 1.6, 3.6]) print(sof

模型压缩之知识蒸馏

m0_63642362的博客

12-12

1169

你想让你小模型在满足部署的前提下，进一步提升精度嘛，走过路过不要错过，手把手教你实现模型压缩中的知识蒸馏操作。

人工智能学习与实训笔记（七）：神经网络之模型压缩与知识蒸馏

weixin_45512098的博客

02-16

1512

一般使用蒸馏的时候，往往会找一个参数量更小的 student 网络，那么相比于 teacher 来说，这个轻量级的网络不能很好的学习到数据集之前隐藏的潜在关系，如上图所示，相比于 one hot 的输出，teacher 网络是将输出的 logits 进行了 softmax，更加平滑的处理了标签，即将数字 1 输出成了 0.6（对 1 的预测）和 0.4（对 0 的预测）然后输入到 student 网络中，相比于 1 来说，这种 softmax 含有更多的信息。离线蒸馏方式即为传统的知识蒸馏，如上图（a）。

【模型压缩】（四）——知识蒸馏

weixin_40620310的博客

04-07

2825

一、概述一句话概括：将一个复杂模型的预测能力转移到一个较小的网络上；（复杂模型称为教师模型，较小模型称为学生模型） Teacher and Student的概念：对大网络学习的知识进行"蒸馏"，并将其转移到小网络上，同时小网络的性能能够接近大网络；蒸馏模型（Student）被训练模仿大网络（Teacher）的输出，而不仅仅是直接在原始数据上训练，通过这种方式让小网络学习到大网络的抽象特征能力和泛化能力；二、流程详解方法一简单流程如下： 1、数据集上训练一个teacher网络； 2、训练

【模型压缩】知识蒸馏-Distilling the Knowledge in a Neural Network

Shwan_ma的博客

03-15

2106

这篇文章是Hinton的大作，采用了一个很特别的方式（知识蒸馏，KT， Knowledge distillation）来进行模型压缩。言而总之，就是预先训练一个大模型去调教小模型，使得小模型更够在应用端更好的跑起来。文章地址：Distilling the Knowledge in a Neural Network, Hinton et al, 2015 为什么要采用知识蒸馏呢作者认为对于分类模...

知识蒸馏---模型压缩

yuehuihui00的博客

09-25

915

关注公众号"DataPlayer" 重磅机器学习干货，第一时间送达知识蒸馏（Knowledge Distilling），你或许在吃饭的间隔，在电梯间的片刻，多多少少都听身边的算法狗聊到过这个名词，却因为它晦涩无比，没有深究；那它背后隐藏了什么算法呢~？小喵今天就用简单的描述，带大家一起了解了解它~ 话题1：什么是知识？在日常生活中，我们对客观世界的认知，就是一种知识；...

知识蒸馏——模型压缩

lance～crazy

08-06

486

写的超好，记录一下深度学习模型压缩方法综述

【distill.&transfer】Deep Face Recognition Model Compression via Knowledge Transfer and Distillation

猫猫与橙子的博客

06-12

710

论文链接：https://arxiv.org/abs/1906.00619 作者的动机：本篇文章提出了一种对人脸识别模型压缩的方法：基于student-teacher paradigm 的脸部识别运用；模型加速是通过降低输入图像的精度，使用相同的网络结构，从而使模型参数不减少，由于图像尺寸减少，数据储存空间也随之减少，整体架构图：作者提出的方法：作者使用了三种方法来提升输入低精度...

Private Model Compression via Knowledge Distillation 论文笔记

weixin_30553065的博客

02-23

350

摘要　　对智能移动应用的需求飙升需要在移动设备上部署强大的深度神经网络（DNN）。然而，DNN的出色性能众所周知地依赖于越来越复杂的模型，而这反过来又与计算开销的增加相关，远远超过了移动设备的容量。更糟糕的是，应用服务提供商需要收集和利用包含敏感信息的大量用户数据来构建复杂的DNN模型。在公共移动设备上直接部署这些模型会带来过高的隐私风险。为了从没有容量和隐私问题的设备深度学习中受益，...

深度学习--知识蒸馏网络压缩训练方法——转

Taiyang625的博客

08-14

3451

《Distilling the Knowledge in a Neural Network》模型蒸馏所谓模型蒸馏就是将训练好的复杂模型推广能力“知识”迁移到一个结构更为简单的网络中。或者通过简单的网络去学习复杂模型中“知识”。其基本流程如下图：基本可以分为两个阶段：原始模型训练：根据提出的目标问题，设计一个或多个复杂网络（N1，N2,…,Nt）。收集足够的训练数据，按照常规...

Knowledge Distillation(7)——Deep Model Compression: Distilling Knowledge from Noisy Teachers

judgechen1997的博客

09-22

670

Deep Model Compression: Distilling Knowledge from Noisy Teachers概述概述给teacher的输出加入基于噪声的正则化，提高Student Robustness获得更好的performance 很粗糙的一种模拟multi-teacher的方式： ...

【GitHub】知识蒸馏从入门到精通

zenRRan的博客

02-21

2745

点击上方，选择星标，每天给你送干货！转载自 | 专知【导读】知识蒸馏（Knowledge Distilling）是由大神Geoffrey Hinton、Oriol Vinyals、Jeff...