- 博客(21)
- 收藏
- 关注
原创 深度学习TensorRT量化实战分析
主要用于读取calibration table的信息来创建INT8的推理引擎,将calibration table的信息存储到calibration cache,这样可以防止每次创建int推理引擎的时候都需要跑一次calibration,如果没有calibration table的话就会直接跳过这一步,之后调用writeCalibrationCache来创建calibration table;:不仅对网络中的权重进行量化,还对激活值(神经网络层的输出)进行量化。:实现基于最大值最小值的INT8量化校准器。
2024-07-09 18:10:25
1106
1
原创 深度学习减枝基础原理总结
模型剪枝是不同于量化的一种压缩方式,是通过删除模型中无意义(意义较小)的权重来减少推理计算量的过程。由于学习过程中会产生过参数化导致会产生一些意义并不是很大的权重或者值为0的权重(ReLU),减枝过程会找到这些权重并让硬件skip这些权重的计算。减枝过程可以看作上图所示,将Sparse weights转为压缩后的compressed weights以及压缩后的weight对应的原先索引,通过这两部分去除无效的权重值,进行一个密集型计算。
2024-06-05 09:07:53
905
原创 深度学习量化基础原理总结
FLOPS(floating point number operations per second): 指一秒钟可以处理的浮动小数点运算的次数。用于衡量计算机硬件性能、计算能力的单位。一般,例: intel i7 Haswell架构(8核,频率3.0GHz)双精度(FP64): 3.0 * 10单精度(FP32): 3.0 * 10(16FLOPS/clk:代表2FMA4个FP64的SIMD运算 * 2乘加融合) --> 一个SIMD计算可以处理4个FP64的运算。
2024-06-04 15:24:40
1164
原创 3D点云目标检测-PointPillars算法解析
文章将点云数据转为点柱形式,以伪图像特征进行特征编码,避免了复杂的3D卷积的影响,提高了3D目标检测的速度,代码实现中还有不少细节值得解析,如为了防止角度抖动,增加的角度回归时的方向偏移值、 进行iou计算时所用到的部分面积求解相关数学公式。(叉乘、点乘相关数学性质!本人水平有限,若存在错误,请各位指正!
2024-05-30 19:17:05
2450
原创 点云地面分割——DipG-Seg算法解析
整篇论文的思路清晰,代码实现完整,后续会加入自己一些多传感器数据的处理以及cuda加速方法的实现,相比先前的patchwork系列算法,处理效果相对较好,几乎没有FN数据出现。本人水平有限,若存在错误,请各位指正!
2024-05-09 10:20:56
2378
7
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人