Facebook开源高性能内核库QNNPACK_笔记

最新推荐文章于 2024-08-19 18:15:57 发布

yuanlulu

最新推荐文章于 2024-08-19 18:15:57 发布

阅读量1.3k

点赞数 1

分类专栏：嵌入式深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yuanlulu/article/details/86628492

版权

DL/ML/AI 同时被 3 个专栏收录

88 篇文章 7 订阅

订阅专栏

59 篇文章 6 订阅

订阅专栏

嵌入式深度学习

13 篇文章 33 订阅

订阅专栏

PDOT简介

卷积可以分解成一种名为 im2col 的内存布局转换和矩阵相乘的组合。因此，卷积神经网络中的有效推理问题很大程度上可以看做矩阵乘法的有效实现问题——在线性代数库中也称为 GEMM。

当前的处理器上，这一实现会受到内存和缓存带宽，而不是乘-加单元计算力的限制。但一个小小的修改——同时计算几行 A 和几行 B 的点积——却使得性能大大提升。

在这里插入图片描述

修改后的基元加载 A 的 MR 及 B 的 NR 元素，实施 MRxNR 乘积累加运算。所有高性能矩阵乘法实现都建立在这个基元上，该基元通常被称为 PDOT（panel dot product）微内核。

QNNPACK的特殊之处

其他库为更好地利用缓存层次结构而重新编写A和B矩阵，希望在大量计算中摊销包装开销，而QNNPACK则是针对A和B的面板可以适应L1缓存的情况而优化的。

区别点：QNNPACK针对的是L1缓存。

QNNPACK的目的：

删除所有计算非必需的内存转换

怎么做的

QNNPACK把矩阵A、B都放进一级缓存 (L1 Cache) ，目标是把所有对运算过程并不非常必要的内存转换 (Memory Transformations) 都删掉。

QNNPACK可以在一次微内核调用 (Microkernel Call) 里，处理A和B。

无需在微内核之外积累 32 位的中间结果，QNNPACK 会将 32 位的中间结果整合进微内核中并写出 8 位值，这节省了内存带宽和缓存占用。

在这里插入图片描述

和tflite对比

QNNPACK比TensorFlow Lite几乎快一倍，不论是在高端智能机，还是普通智能机身上。

在这里插入图片描述

参考资料

QNNPACK: Open source library for optimized mobile deep learning

对应翻译：让手机神经网络速度翻倍：Facebook开源高性能内核库QNNPACK

Facebook开源了移动端AI加速框架，比TensorFlow Lite快一倍

细说Cache-L1/L2/L3/TLB

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。