![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习模型部署
文章平均质量分 91
KIKU啊
3d视觉爱好者
展开
-
深度学习TensorRT量化实战分析
主要用于读取calibration table的信息来创建INT8的推理引擎,将calibration table的信息存储到calibration cache,这样可以防止每次创建int推理引擎的时候都需要跑一次calibration,如果没有calibration table的话就会直接跳过这一步,之后调用writeCalibrationCache来创建calibration table;:不仅对网络中的权重进行量化,还对激活值(神经网络层的输出)进行量化。:实现基于最大值最小值的INT8量化校准器。原创 2024-07-09 18:10:25 · 807 阅读 · 0 评论 -
深度学习减枝基础原理总结
模型剪枝是不同于量化的一种压缩方式,是通过删除模型中无意义(意义较小)的权重来减少推理计算量的过程。由于学习过程中会产生过参数化导致会产生一些意义并不是很大的权重或者值为0的权重(ReLU),减枝过程会找到这些权重并让硬件skip这些权重的计算。减枝过程可以看作上图所示,将Sparse weights转为压缩后的compressed weights以及压缩后的weight对应的原先索引,通过这两部分去除无效的权重值,进行一个密集型计算。原创 2024-06-05 09:07:53 · 575 阅读 · 0 评论 -
深度学习量化基础原理总结
FLOPS(floating point number operations per second): 指一秒钟可以处理的浮动小数点运算的次数。用于衡量计算机硬件性能、计算能力的单位。一般,例: intel i7 Haswell架构(8核,频率3.0GHz)双精度(FP64): 3.0 * 10单精度(FP32): 3.0 * 10(16FLOPS/clk:代表2FMA4个FP64的SIMD运算 * 2乘加融合) --> 一个SIMD计算可以处理4个FP64的运算。原创 2024-06-04 15:24:40 · 692 阅读 · 0 评论