技术解读倚天 ECS 实例 — Arm 芯片的 Python-AI 算力优化

阿里云云栖号

于 2022-11-29 10:57:40 发布

阅读量828

点赞数

文章标签：人工智能 python 深度学习阿里云云计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yunqiinsight/article/details/128093925

版权

深度学习技术在图像识别、搜索推荐等领域得到了广泛应用。近年来各大 CPU 厂商也逐渐把 AI 算力纳入了重点发展方向，通过《Arm 芯片 Python-AI 算力优化》我们将看到龙蜥社区 Arm 架构 SIG（Special Interest Group）利用最新的 Arm 指令集优化 Python-AI 推理 workload 的性能。

倚天ECS实例的AI推理软件优化

阿里云推出的倚天Arm ECS实例，拥有针对AI场景的推理加速能力，我们将了解加速的原理以及以及相关的软件生态适配。

卷积神经网络(CNN)在图像和语音领域使用广泛，神经网络算法相比传统的算法消耗了更多算力。为了探索对计算的优化，我们进一步看到AlexNet模型(一种CNN)的推理过程的各个层的计算资源消耗占比。

可以看到名为conv[1-5]的5个卷积层消耗了90%的计算资源，因此优化CNN推理的关键就是优化卷积层的计算。

我们进一步来看如何对图像应用卷积核：

使用im2col根据卷积核尺寸，将图像转化为若干块(patch)
将多个卷积核展开成若干向量
对由图像块组成的矩阵和由多个卷积核展开组成的矩阵应用矩阵乘法

上面一页的计算应用了矩阵乘法操作，为什么我们不采用更加直接的迭代计算方式，而是采用需要额外内存的矩阵乘法呢？这里有两个关键因素：

深度学习的卷积计算量很大，典型计算需要涉及5000万次乘法和加法操作，因此对计算的优化十分重要
计算机科学家们已经深入探索了矩阵乘法操作，矩阵乘法操作可以被优化得非常快。

在fortran世界中，GEMM(general matrix multiplication)已经成为一个通用操作:

该操作通过对数据重新排列，精心设计计算过程，利用多线程和向量指令，可以比自己实现的朴素版本快十倍以上。因此使用矩阵运算带来的收益相比额外的开销是值得的。

最低0.47元/天解锁文章

阿里云云栖号

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。