模型量化是什么？方法有哪些？简短总结

最新推荐文章于 2024-06-21 11:12:08 发布

深耕半夜

最新推荐文章于 2024-06-21 11:12:08 发布

阅读量563

点赞数 1

文章标签：人工智能机器学习深度学习边缘计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_57672347/article/details/134357747

版权

1.模型量化是什么

模型量化是指将神经网络的浮点算法转换为定点。

低精度模型表示模型权重数值格式为 FP16（半精度浮点）或者 INT8（8位的定点整数），但是目前低精度往往就指代 INT8。
常规精度模型则一般表示模型权重数值格式为 FP32（32位浮点，单精度）。
混合精度（Mixed precision）则在模型中同时使用 FP32 和 FP16 的权重数值格式。 FP16 减少了一半的内存大小，但有些参数或操作符必须采用 FP32 格式才能保持准确度。

2.模型量化的作用

2.1减小模型大小：如INT8相对于FP32减少了75%

2.2加速推理：访问一次 32 位浮点型可以访问四次 int8 整型，整型运算比浮点型运算更快,CPU对INT8计算更快

2.3用于只支持INT8计算硬件

压缩网络参数，提升速度，降低内存占用

3.模型量化方案

3.1datafree：不使用校准集，传统方法直接将浮点数转为量化数，准换损失通常较大，但是高通最新的论文 DFQ 不使用校准集也得到了很高的精度。

3.2calibration：基于校准及方案，通过输入少量真是数据进行数理统计分析，很多芯片厂商都提供这样的功能，如 tensorRT、高通、海思、地平线、寒武纪

3.3finetune：基于训练finetune的方案，将量化误差在训练时仿真建模，调整权重使其更适合量化优点是能到来精度提升，缺点要修改模型训练代码开发周期长

4.量化方法

量化是否一定能加速计算？回答是否定的，许多量化算法都无法带来实质性加速。

已知提速概率较大的量化方法主要有如下三类

4.1二值化，其可以用简单的位运算来同时计算大量的数。对比从 nvdia gpu 到 x86 平台，1bit 计算分别有 5 到128倍的理论性能提升。且其只会引入一个额外的量化操作，该操作可以享受到 SIMD（单指令多数据流）的加速收益。

4.2线性量化(最常见)，又可细分为非对称，对称和 ristretto 几种。在 nvdia gpu，x86、arm 和部分 AI 芯片平台上，均支持 8bit 的计算，效率提升从 1 倍到 16 倍不等，其中 tensor core 甚至支持 4bit计算，这也是非常有潜力的方向。线性量化引入的额外量化/反量化计算都是标准的向量操作，因此也可以使用 SIMD 进行加速，带来的额外计算耗时不大。

与非线性量化不同，线性量化采用均匀分布的聚类中心，原始浮点数据和量化后的定点数据存在一个简单的线性变换关系，因为卷积、全连接等网络层本身只是简单的线性计算，因此线性量化中可以直接用量化后的数据进行直接计算。

4.3对数量化，一种比较特殊的量化方法。两个同底的幂指数进行相乘，那么等价于其指数相加，降低了计算强度。同时加法也被转变为索引计算。目前 nvdia gpu，x86、arm 三大平台上没有实现对数量化的加速库，但是目前已知海思 351X 系列芯片上使用了对数量化。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
模型量化是什么？方法有哪些？简短总结

模型量化是指将神经网络的浮点算法转换为定点。
复制链接

扫一扫

深耕半夜 CSDN认证博客专家 CSDN认证企业博客

码龄3年

82: 原创

109万+: 周排名

4万+: 总排名

5万+: 访问

: 等级

1098: 积分

213: 粉丝

216: 获赞

21: 评论

287: 收藏

私信

关注

热门文章

分类专栏

海思SD3403/SS928开发板开发记录 5篇
C++面经总结 2篇

最新评论

Socket实现服务器搭建
普通网友: 每当我阅读你的编程博客文章时，我总能感受到你的专业水平和耐心解答的精神。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
cmake 编译学习记录----指定源文件路径，链接库.......
芯的一天: 这么链接是没错的，可以构建出目标。但是啊，如果dll没在环境变量内，或是没在exe同级目录下，就根本没办法执行。
操作系统常见面试问题之系统寻址空间是多大？虚拟地址与物理地址？内存映射是什么？详细总结
歹丸: 学习了，感谢！
unordered_map和map的区别 unordered_map的创建以及成员函数使用
CSDN-Ada助手: 恭喜作者发布了第16篇博客！对于unordered_map和map的区别以及unordered_map的创建和成员函数使用进行了详细的讲解，非常有帮助。希望作者能够继续坚持创作，分享更多关于编程方面的知识和经验。下一步可以考虑深入探讨一些实际应用场景下的使用技巧，或者分享一些编程中的常见问题及解决方法，相信会受到更多读者的欢迎。加油！
海思SD3403/SS928开发板开发记录一：烧写
xhh116247156: 请问用的什么单板的？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。