将SSE指令转换为ARM NEON指令

最新推荐文章于 2024-05-02 16:05:21 发布

虹幺

最新推荐文章于 2024-05-02 16:05:21 发布

阅读量1.9k

点赞数

分类专栏：踩坑 c/cpp 算法文章标签： arm 嵌入式硬件 neon c++

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xzq1207105685/article/details/126092212

版权

踩坑同时被 3 个专栏收录

11 篇文章 0 订阅

订阅专栏

9 篇文章 2 订阅

订阅专栏

3 篇文章 1 订阅

订阅专栏

相关资料

● sse指令集：sse指令解释
● sse2neon仓库：可以在sse2neon.h中寻找对应的neon指令转换方法

注意事项

● 将sse指令转换为arm neon指令往往很难起到优化作用，甚至可能产生负优化，因此该部分优化仅供参考。

__mm_shuffle_ps转换

__mm_shuffle_ps的作用是将m1中取出两个元素放到m3的低位，根据的是_MM_SHUFFLE(i3,i2,i1,i0)的后两个数组，从m2中取出两个元素放到m3的高位，根据的是_MM_SHUFFLE(i3,i2,i1,i0)的前两个数字。

在这里插入图片描述

针对__mm_shuffle_ps的转换，sse2neon中大多使用load and store指令和type conversion操作进行组合，比如下面这个代码，对应__mm_shuffle_ps(a,b,__MM_SHUFFLE(2,2,0,0))。

FORCE_INLINE __m128 _mm_shuffle_ps_2200(__m128 a, __m128 b)
{
    float32x2_t a00 = vdup_lane_f32(vget_low_f32(vreinterpretq_f32_m128(a)), 0);
    float32x2_t b22 =
        vdup_lane_f32(vget_high_f32(vreinterpretq_f32_m128(b)), 0);
    return vreinterpretq_m128_f32(vcombine_f32(a00, b22));
}

直接使用类似上面的转换一定会造成性能的不升反降，最好的方法是在neon中寻找类似的操作，这部分操作主要集中在permutation，比如vtrn,vrev,vzip,vuzp等
比如上面的例子中：如果需要同时获取__mm_shuffle_ps(a,a,__MM_SHUFFLE(2,2,0,0))和__mm_shuffle_ps(a,a,__MM_SHUFFLE(3,3,1,1))时，可以使用vtrnq_32f(a,a)来获取，结果为float32x4x2_t类型，val[0]对应2200，val[1]对应3311。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
将SSE指令转换为ARM NEON指令

●sse指令解释●可以在sse2neon.h中寻找对应的neon指令转换方法。
复制链接

扫一扫

专栏目录

虹幺 CSDN认证博客专家 CSDN认证企业博客

码龄12年

30: 原创

13万+: 周排名

86万+: 总排名

10万+: 访问

: 等级

623: 积分

64: 粉丝

118: 获赞

197: 评论

524: 收藏

私信

关注

热门文章

分类专栏

c/cpp 9篇
踩坑 11篇
算法 3篇
后端 8篇
大数据 4篇
机器学习/深度学习 7篇
python 3篇
脑洞 1篇

最新评论

轻量化AlphaPose
WangYx-: 作者您好，我想问下为啥我用yolov5训练出来的模型权重大小和yolov3训练出来的模型权重文件大小一样都是155M呢，训练日志中显示更换成功了的
yolov5+opencv+java：通过DJL在maven项目中使用yolov5的小demo
阿十六: 求助博主，ai.djl.translate.TranslateException: ai.djl.engine.EngineException: isTuple() INTERNAL ASSERT FAILED at "..\\..\\aten\\src\\ATen/core/ivalue_inl.h":1101, please report a bug to PyTorch. Expected Tuple but got String at ai.djl.inference.Predictor.batchPredict(Predictor.java:170) at ai.djl.inference.Predictor.predict(Predictor.java:118) at triShpere_YOLO.YOLOv5.detect(YOLOv5.java:90) at triShpere_YOLO.YOLOv5.main(YOLOv5.java:71)。报这个错是为什么啊
轻量化AlphaPose
m0_46346901: 修改yaml路径为啥我的不在train.py里，我只在opt.py找到了相关的代码
轻量化AlphaPose
WangYx-: 你好请问在alphapose中如何更改检测头呢
为vscode配置clangd
zhz906575052: 请问怎么处理预处理定义

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

虹幺 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。