A 3DCNN-Based Knowledge Distillation Framework for Human Activity Recognition
Abstract:
本文提出了一个知识蒸馏框架,该框架使用离线知识蒸馏技术从大型教师模型中提取时空知识到轻量级学生模型。
所提出的离线知识蒸馏框架采用两个模型:大型预训练 3DCNN(三维卷积神经网络)教师模型和轻量级 3DCNN 学生模型(即教师模型在同一数据集上进行预训练,学生模型要训练)。
在离线知识蒸馏训练过程中,蒸馏算法只训练学生模型,帮助学生模型达到与教师模型相同的预测精度水平。
短推理时间和高精度使得我们提出的框架适用于实时应用中的人类活动识别。
1. Introduction
知识蒸馏方法是自我监督学习的一种特殊变体,它提供了模型压缩和知识转移。范式知识蒸馏由两个网络架构组成,即教师和学生,其中学生在训练期间通过最小化称为蒸馏损失的相互损失来学习。
基于特征的知识蒸馏通过最小化教师和学生模型之间的特征级差异,将特征表示级别的知识从教师转移到学生模型。
本文提出了一个3D卷积神经网络(3DCNN)驱动的知识蒸馏框架,该框架由两个3DCNN网络组成,即3DCNN教师和3DCNN学生。为了有效地进行知识转移,提出了一种离线知识蒸馏策略。
2. The Proposed Spatio-Temporal Knowledge Distillation Framework
所提出的时空知识蒸馏框架基于三个主要组件,包括师生 3DCNN 架构、离线知识蒸馏范式和时空知识蒸馏过程的工作流程。
所提出框架的第一个核心组件是一对师生 3DCNN 网络&