2011年11月10日,据NVIDIA官方宣布CUDA Toolkit 4.1 RC1版本发布,目前CUDA注册开发者已经可以下载。CUDA开发者请登录官网下载或者立即注册下载。发布者期待通过注册开发者的反馈了解使用新版本中的个人体会(优点与缺点)。
▲CUDA Toolkit 4.1 RC1版本发布
新版本包括一款新的基于LLVM的CUDA编译器,超过一千项新的图像处理功能,以及经过重新设计的具有自动性能分析和集成的专家指导功能的Visual Profiler。
此外,11月22日周二上午10点(太平洋标准时间),即北京时间11月23日凌晨2点,还将举行CUDA 4.1功能概述研讨会,点此登录了解详情。
新版本亮点
1、新的编译器
· 基于LLVM的新编译器为大量应用带来10%的性能提升。
2、GPU加速库带来新的升级版“drop-in”加速机制
· NPP库中加入了超过一千项新的图像处理函数;
· 新的cuSPARSE tri-diagonal solver比六核CPU中的MKL(数学核心库)快十倍;
· 新添加了针对MRG32k3a及Mersenne Twister(马特赛特旋转演算,MTGP11213)RNG算法的cuRAND支持;
· CUDA标准数学库新增对Bessel函数的支持;
· 利用ELL混合格式使稀疏矩向量乘法的速度提高了将近两倍;
· 点击了解更多关于GPU加速库的信息。
3、改进并重新设计的开发工具
· 经过重新设计的Visual Profiler,具备自动性能分析及专家指导功能;
· CUDA-GDB支持新增对MPI应用调试、multi-context调试以及在设备代码中的使用assert()函数的支持;
· CUDA-MEMCHECK现在可以在设备代码中为分配的内存检测访问是否越界;
· Parallel Nsight 2.1 CDUAwarp查看器可以跨越整个CUDA warp查看变量和表达式;
· Parallel Nsight 2.1 CUDA profiler现在能够分析kernel内存活动性、执行延时以及指令吞吐量;
· 点击了解更多与GPU开发者相关的调试及性能分析信息。
4、高级编程特性
· 从设备代码访问3D surfaces和cube maps;
· 增强了系统内存的非阻塞拷贝,移除了cudaHostRegister()对齐以及尺寸约束;
· 进程之间的点对点通信;
· 无需在nvidia-smi中重启系统即可重置GPU。
5、新增及改进的SDK代码示例
· simpleP2P示例现在支持任意Fermi GPU间的点对点通信;
· 新的grabcupNPP示例通过重复图形削减展示了交互式前景提取功能;
· 新增的示例演示了如何为光学流动、执行体积过滤及立方体映射纹理读取实现Horn-Schunck方法。
更多内容请点击:
CUDA专区:http://cuda.it168.com/
CUDA论坛:http://cudabbs.it168.com/