网络压缩简介

最新推荐文章于 2024-08-01 08:17:37 发布

蓝鲸小镇不临海

最新推荐文章于 2024-08-01 08:17:37 发布

阅读量501

点赞数

文章标签：深度学习神经网络人工智能

本文链接：https://blog.csdn.net/weixin_44411120/article/details/120489802

版权

文章目录

前言
一、前端压缩
- 1、知识蒸馏
- 2、紧致网络设计
二、后端压缩

前言

本文主要包括卷积神经网络的网络压缩的相关知识。主要致力于减小模型复杂度，减少模型存储所需的空间，加速模型的训练与推理。

模型的压缩又分为前端压缩（不怎么改变网络结构）和后端压缩（追求极致的压缩，极大地改造网络结构，操作不可逆），接下来将分别介绍它们。

提示：以下是本篇文章正文内容，仅供参考

一、前端压缩

1、知识蒸馏

采用迁移学习的思想，通过预训练好的teacher model（大and强）的输出作为监督信号去训练另外一个轻量化的网络student model（小 and快）。
在这里插入图片描述
teacher model可以监督的信息包括：

概率分布
输出的特征
中间层的feature map
attention map
中间过程

其中针对概率分布的蒸馏可以使用KL。KL散度是描述两个概率分布差异的一种方法。我的理解是通过KL告诉student model自己的prediction和teacher model的差异，从而纠正其可能的错误（因为teacher model的预测更准确）。具体做法是计算两个pre的KL散度得到一个KL loss，训练student model时将其自己计算的loss和KL loss相加后再做反向传播。

针对feature map做知识蒸馏。我们希望student model得到的feature map和teacher model得到feature map尽可能像，但是如果直接用L2 loss计算可能太暴力，可能导致过拟合，所以这里通常使用MMD loss（maximum mean discrepancy，可以评价两个域的相似性），它是将两个model 的feature map的分布域拉近而不是直接针对每个feature map（这里假设我们有一系列的feature map）。
在这里插入图片描述