使用Intel 向量化编译器优化性能(3)

最新推荐文章于 2023-02-15 14:04:57 发布

xzygod

最新推荐文章于 2023-02-15 14:04:57 发布

阅读量3k

点赞数 1

分类专栏：优化和算法文章标签：编译器优化 vector 算法 float 数据结构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xzygod/article/details/5404

版权

使用Intel 向量化编译器优化性能(3) 本文节选翻译自Intel编译器文档 1. 向量化循环中的数据类型在整形的循环中,MMX和SSE技术都为多数使用8/16/32bits长度数据的算法和逻辑操作提供了相应的SIMD指令,如果一个使用整数的算法把结果保存在一个有足够精度的变量中,那么这个算法就可能被向量化,举例说,一个运算的结果是32位整数,但却被保存在一个16

摘要由CSDN通过智能技术生成

使用Intel 向量化编译器优化性能(3)

本文节选翻译自Intel编译器文档

1. 向量化循环中的数据类型

在整形的循环中,MMX和SSE技术都为多数使用8/16/32bits长度数据的算法和逻辑操作提供了相应的SIMD指令,如果一个使用整数的算法把结果保存在一个有足够精度的变量中,那么这个算法就可能被向量化,举例说,一个运算的结果是32位整数,但却被保存在一个16位的整数中,那么这么操作就不能被向量化,不是所有整形操作都能够被向量化的.

在32位或64位浮点数的循环中,SSE指令集不光为加减乘除等运算提供了相应的SIMD指令,而且也提供了诸如MAX/MIN/SORT这样的操作的SIMD指令,其它的一些数学运算,比如三角函数SIN/COS/TAN的SIMD版本也已经在和编译器一起提供的向量数学库中得到了支持.

2. 展开循环

编译器会自动对循环进行分析,并生成展开后的代码,这就是说你不需要自己去展开循环重新编写循环操作,在很多情况下,这能够使你获得更多的向量化操作.

看下面的循环

int i = 0;

while(i < k)

{

a[i] = b[i] + c[i];

++i;

}

向量化后就生成这样2个循环操作

while(i < (k - k % 4))

{

a[i] = b[i] + c[i];

a[i + 1] = b[i + 1] + c[i + 1];

a[i + 2] = b[i + 2] + c[i + 2];

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
使用Intel 向量化编译器优化性能(3)

使用Intel 向量化编译器优化性能(3) 本文节选翻译自Intel编译器文档 1. 向量化循环中的数据类型在整形的循环中,MMX和SSE技术都为多数使用8/16/32bits长度数据的算法和逻辑操作提供了相应的SIMD指令,如果一个使用整数的算法把结果保存在一个有足够精度的变量中,那么这个算法就可能被向量化,举例说,一个运算的结果是32位整数,但却被保存在一个16
复制链接

扫一扫

专栏目录

xzygod CSDN认证博客专家 CSDN认证企业博客

码龄24年

4: 原创

55万+: 周排名

218万+: 总排名

2万+: 访问

: 等级

253: 积分

8: 粉丝

4: 获赞

12: 评论

13: 收藏

私信

关注

热门文章

分类专栏

优化和算法 2篇

最新评论

简单jpeg编码程序
Melaw 回复 ZHENG017: 太感谢了！解决了困扰我好久的问题
简单jpeg编码程序
Melaw: 楼主你好我使用了你的这个程序将BMP格式转换为JPEG格式，但是有个问题，就是你这个程序只能转换一张bmp图片，如果同时对多张bmp进行转换会发生错误，图片会出现色差，求问楼主是什么情况，自己找了好久找不出原因所在，也因为自己对程序了解的不够透彻
简单jpeg编码程序
wangyan10: 精品呀
简单jpeg编码程序
dj_highman: 很好，学习了，谢谢
简单jpeg编码程序
kongxh961: 最近工作需要用到图像压缩，谢谢分享，有了这个可以借鉴。再次感谢

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。