原文链接:https://www.thinkautonomous.ai/blog/?p=deep-learning-optimization
导语
在深度学习中,推理指的是神经网络的一次前向传播过程,也就是将输入数据送入神经网络,然后从中得到输出结果的过程。比如,我们可以通过将3D点云送入一个点云分类网络以确定该帧点云所属的类别。
提前了解推理时间可以帮助我们更好地设计深度学习模型,并且针对推理进行性能优化。比如,我们可以将标准的卷积换成可分离卷积来减少计算量,也可以通过剪枝、量化和模型冻结等方式来减少计算量,这些优化技术可以减少很多推理时间。本文将对这些技术进行简要的介绍。
如何计算模型的推理时间
为了理解如何优化神经网络,我们必须有一个指标,通常该指标为推理时间,推理时间指的是神经网络执行一次前向传播所需要的时间。通常我们用一秒钟内模型能够执行的推理次数来表示模型的推理速度,单位用fps
表示。假如模型推理一次需要的时间为0.1s
,那么其推理速度可以表示为