小知识点系列(七) 本文(2万字) | 解读深度学习中模型大小与推理速度 |

小酒馆燃着灯

已于 2023-12-29 16:09:13 修改

阅读量833

点赞数 17

文章标签：深度学习人工智能 YOLO 推理速度模型大小与推理速度

于 2023-12-28 10:13:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44302770/article/details/135262370

版权

人工智能专栏计划专栏收录该内容

141 篇文章 7 订阅

已下架不支持订阅

点击进入专栏：
《人工智能专栏》 Python与Python | 机器学习 | 深度学习 | 目标检测 | YOLOv5及其改进 | YOLOv8及其改进 | 关键知识点 | 各种工具教程

文章目录

@[toc]

一、前言

二、常用模型大小评估指标

2.1 计算量

2.2 参数量

2.3 访存量

2.4 内存占用

2.5 小结

三、计算量越小，模型推理就越快吗？

3.1 计算密度与 RoofLine 模型

3.2 计算密集型算子与访存密集型算子

3.3 推理时间

3.4 小结

四、影响模型推理性能的其他因素

4.1 硬件限制对性能上界的影响

4.2 系统环境对性能的影响

4.3 软件实现对性能的影响

4.4 小结

五、面向推理速度的模型设计建议

六、结语

1. 机器学习

2. 深度学习与目标检测

3. YOLOv5

4. YOLOv5改进

5. YOLOv8及其改进

6. Python与PyTorch

7. 工具

8. 小知识点

9. 杂记

一、前言

当年实习做算法时，主管给的第一个任务就是「把一个大的分割模型砍成一个小的」。当时并不理解模型「大」「小」的真正含义，就简单地选取 计算量 作为评价指标，疯狂砍计算量（backbone 换 MobileNet/ShuffleNet、Conv 换成 DepthWise Conv、以及一些奇奇怪怪的融合结构等等），把模型计算量砍了将近 10 倍，结果一部署发现速度并没有快多少，反而是把最初的 ResNet 简单砍掉几个 block 效果更好。

也是从那时起接触了访存量、流水线、RoofLine 模型等概念，对模型推理速度的问题产生了兴趣，从此踏上了深度学习推理优化的不归路。

如今做推理优化和 HPC 已经有一段时间了，还是偶尔能回想起当年不懂推理时设计的与硬件严重不匹配的模型。此外在工作中跟研究员沟通时，也会发现部分研究员对模型大小和模型推理速度的关系不太了解，设计出一些很难发挥硬件计算能力的模型结构。因此在这里对一些用于评价模型大小的指标 —— 计算量、参数量、访存量、内存占用 等指标进行详细探讨，分析这些指标会对模型的部署推理产生何种影响，详细讨论计算量和访存量对模型推理速度

了解本专栏

小酒馆燃着灯

关注

17
点赞
踩
16

收藏

觉得还不错? 一键收藏
打赏
0
评论
小知识点系列(七) 本文(2万字) | 解读深度学习中模型大小与推理速度 |

当年实习做算法时，主管给的第一个任务就是「把一个大的分割模型砍成一个小的当时并不理解模型「大」「小」的真正含义，就简单地选取计算量作为评价指标，疯狂砍计算量（backbone 换 MobileNet/ShuffleNet、Conv 换成 DepthWise Conv、以及一些奇奇怪怪的融合结构等等），把模型计算量砍了将近 10 倍，结果一部署发现速度并没有快多少，反而是把最初的 ResNet 简单砍掉几个 block 效果更好。
复制链接

扫一扫

专栏目录

已下架不支持订阅

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小酒馆燃着灯 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。