深度计算加速
yuanlulu
做过嵌入式Linux开发、深度学习平台开发。擅长c++和python。
展开
-
Facebook开源高性能内核库QNNPACK_笔记
PDOT简介卷积可以分解成一种名为 im2col 的内存布局转换和矩阵相乘的组合。因此,卷积神经网络中的有效推理问题很大程度上可以看做矩阵乘法的有效实现问题——在线性代数库中也称为 GEMM。当前的处理器上,这一实现会受到内存和缓存带宽,而不是乘-加单元计算力的限制。但一个小小的修改——同时计算几行 A 和几行 B 的点积——却使得性能大大提升。修改后的基元加载 A 的 MR 及 B 的 ...原创 2019-01-24 16:00:51 · 1379 阅读 · 0 评论 -
rk3399上opencv使用gstreamer访问mipi摄像头
环境硬件:友善之臂NanoPC T4rk3399:Big.Little 架构:双核Cortex-A72 + 四核 Cortex-A53 架构,64位CPU主频超过1.8GHz软件:rk3399-eflasher-friendlydesktop-bionic-4.4-arm64-20181219.img这是友善之臂定制的一个基于ubuntu18.04的64位操作系统。探索思路自己...原创 2019-03-30 19:35:46 · 11698 阅读 · 9 评论