NVIDIA Tensor Cores解析
高性能计算机和人工智能前所未有的加速
Tensor Cores支持混合精度计算,动态调整计算以加快吞吐量,同时保持精度。最新一代将这些加速功能扩展到各种工作负载。NVIDIA Tensor内核为所有工作负载提供了新的能力,从革命性的新精度Tensor Float 32(TF32)人工智能训练中的10倍加速到浮点64(FP64)高性能计算的2.5倍加速。
Revolutionary AI Training
当人工智能模型面临更高层次的挑战时,如精确的对话人工智能和深度推荐系统,它们的复杂性继续爆炸。像威震天这样的对话人工智能模型比像ResNet-50这样的图像分类模型大数百倍,也更复杂。以FP32精度训练这些大型模型可能需要几天甚至几周的时间。NVIDIA GPU中的张量磁芯提供了一个数量级的更高性能,降低了TF32和FP16等精度。并通过NVIDIA CUDA-X在本机框架中直接支持™
库中,实现是自动的,在保持准确性的同时,大大缩短了训练的收敛时间。
Breakthrough AI Inference
一个好的人工智能推理加速器不仅要有很好的性能,还要有多功能性来加速不同的神经网络,同时还要有可编程性,使开发人员能够构建新的神经网络。高吞吐量的低延迟同时最大化利用率是可靠部署推理的最重要性能要求。NVIDIA Tensor Cores提供全系列精度——TF32、bfloat16、FP16、INT8和INT4,提供无与伦比的多功能性和性能。
Advanced HPC
高性能混凝土是现代科学的一个基本支柱。为了揭示下一