Android NDK 之NEON优化

最新推荐文章于 2024-07-13 23:11:02 发布

zwcai

最新推荐文章于 2024-07-13 23:11:02 发布

阅读量5.1k

点赞数

分类专栏：嵌入式开发文章标签： android 优化汇编编译器算法嵌入式

本文链接：https://blog.csdn.net/zwcai/article/details/6843531

版权

近期正在往Android平台移植算法。确切地说，是针对ARM A8 A9 平台进行优化。发现不同芯片的浮点能力差别颇大。A9系列明显强于A8系列，大约有3倍多的提升，应该就是VFP管线化的优势。不过即使相同核心，不同厂家的芯片也会有不少差别。起初用本人手机，ATRIX，Tegra2处理器，A9双核。测算了一下，跑浮点算法速度是我台式机的三分之一。折算为相同频率的话，已经相差无几了。PC的算法直接编译就可以使用，速度直接达标，DSP时期的什么浮点转定点，直接就Pass掉，啥优化不用，真是惊叹。不过拿上其他A8板子，惊喜立马就飞走了，优化还是得做的，活省不了。主要可用的就是NEON了。

优化NEON时，挑了几个典型函数，比如向量内积、比例求和、互相干系数，让人去尝试看看。一开始按照TI DSP的惯用招数，将运算用一系列NEON内联函数去整，发现速度仅提升了10%，搞不下去。我分析了汇编代码，发现编出来的有很多栈操作，比如关键的运算语句就一条，但前后 vstd 和 vldr 有十来条，不慢才怪。网上搜搜，也有类似情况，似乎编译器对NEON内联的优化较弱，没法把运算串起来。使出最后一招：嵌入式汇编手工优化，看了半天指令集，挑了最简单的比例求和函数，其实汇编的话，也就对应三条运算语句，就是算上加载和保存，也就十来句，比起编译器出来的几十条省了很多。运行一下，速度提升了5倍。这下有搞头了，让工程师把其他几个也整了，最高有20倍提升。就是编起来有点费劲，半天一个小函数，只能用于优化核心费时的部分。

有两个比较不错的参

最低0.47元/天解锁文章

zwcai

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
Android NDK 之NEON优化

近期正在往Android平台移植算法。确切地说，是针对ARM A8 A9 平台进行优化。发现不同芯片的浮点能力差别颇大。A9系列明显强于A8系列，大约有3倍多的提升，应该就是VFP管线化的优势。不过即使相同核心，不同厂家的芯片也会有不少差别。起初用本人手机，ATRIX，Tegra
复制链接

扫一扫