Nvidia发布了最新的CUDA Toolkit 3.2,相对于之前的版本有了很大的性能提升,引入了新的数学函数库以及高端的计算机集群管理等特性,这些特性对于开发者开发下一代GPU加速应用的有很大帮助。
CUDA Toolkit包括很多工具,函数库以及相关文档,从而帮助开发者编译CUDA C和C++的应用程序,同时CUDA Toolkit还可以作为很多其他GPU通用计算方案的基础。下面列出了CUDA Toolkit 3.2所带来的一些新的特性以及性能提升:
1. CUDA BLAS(CUBLAS)函数库的性能提升高达300%,相对于Intel最新的MKL计算速度快了8倍左右。
2. 优化后的CUDA FFT (CUFFT)相对于最新的MKL加速比达到了2-20倍。
3. 新的CURAND函数库,生成随机数的速度相对于MKL快10-20倍。
4. 新的稀疏矩阵CUSPARSE函数库的解决方案相对于最新的MKL达到了6-30倍的加速比。
5. 一些关于GPU调试以及性能分析方面的改进。
另外,最新发布的CUDA Toolkit 3.2包含了H.264编解码,新的Tesla计算集群的集成,集群的管理等特性,并且支持显存高达6GB的Nvidia Tesla和Quadro系列的GPU产品。