NVIDIA Turing Architecture架构设计(上)
在游戏市场持续增长和对更好的 3D 图形的永不满足的需求的推动下, NVIDIA ®已经将 GPU 发展成为许多计算密集型应用的世界领先的并行处理引擎。除了渲染高度逼真和身临其境的 3D 游戏外, NVIDIA GPUs 还可以加速内容创建工作流、高性能计算( HPC )和数据中心应用程序,以及众多人工智能系统和应用程序。新的 NVIDIA 图灵 GPU 架构建立在 GPU 长期领导地位的基础上。
图灵代表了十多年来最大的体系结构飞跃,它提供了一个新的核心 GPU 体系结构,使 PC 游戏、专业图形应用和深度学习推理的效率和性能有了重大提高。
使用新的基于硬件的加速器和混合渲染方法,图灵融合了光栅化、实时光线跟踪、人工智能和模拟技术,在电脑游戏中实现令人难以置信的真实感、由神经网络驱动的惊人新效果、电影质量的交互体验以及创建或导航复杂 3D 模型时的流体交互。
在核心架构中,图灵显著提升图形性能的关键因素是一个新的 GPU 处理器(流式多处理器 SM )架构,它提高了着色器执行效率,以及一个新的内存系统架构,其中包括对最新GDDR6 内存技术的支持。
图像处理应用程序,如 ImageNet Challenge 是深度学习的首批成功案例之一,因此,人工智能有潜力解决图形中的许多重要问题也就不足为奇了。图灵的张量核心支持一套新的基于深度学习的神经网络,除了为基于云的系统提供快速的人工智能推断外,还为游戏和专业图形提供惊人的图形效果。
长期以来备受追捧的计算机图形绘制的圣杯——实时光线跟踪现在已经在具有 NVIDIA 图灵 GPU 体系结构的单 GPU 系统中实现。图灵 GPUs 引入了新的 RT 核心,加速器单元致力于以非凡的效率执行光线跟踪操作,消除了过去昂贵的基于软件仿真的光线跟踪方法。这些新装置与 NVIDIA RTX ™ 软件技术和复杂的过滤算法使图灵能够提供实时光线跟踪渲染,包括具有物理精确阴影、反射和折射的真实感对象和环境。
在图灵开发的同时,微软在 2018 年初发布了 directmlforai 和 DirectX 光线跟踪( DXR ) api 。通过图灵 GPU架构和微软新的 AI 和光线追踪 API 的结合,游戏开发者可以在他们的游戏中快速部署实时 AI 和光线追踪。
除了具有开创性的人工智能和光线跟踪功能外,图灵还包括许多新的高级着色功能,这些功能可以提高性能,增强图像质量,并提供更高层次的几何复杂性。
图灵 GPUs 还继承了对
NVIDIA CUDA 的所有增强™ Volta 体系结构中引入的平台,可提高计算应用程序的能力、灵活性、生产力和可移植性。诸如独立线程调度、多应用程序地址空间隔离的硬件加速多进程服务( MPS )和协作组等特性都是图灵 GPU 体系结构的一部分。
一些新的 NVIDIA GeForce ®和 NVIDIA Quadro ™ GPU 产品将由图灵 GPUs 提供动力。在本文将重点介绍 NVIDIA 旗舰图灵 GPU 的体系结构和性能,该产品代号为 TU102 ,将在 GeForce RTX 2080 Ti 和 Quadro RTX 6000 上交付。技术细节,包括 TU104 和 TU106 图灵 GPUs 的产品规范,见附录。
图 1 展示了图灵如何用一个全新的架构来重塑图形,这个架构包括增强的张量核心、新的 RT 核心和许多新的高级着色功能。图灵结合了可编程着色、实时光线跟踪和人工智能算法,为游戏和专业应用程序提供了难以置信的真实感和物理精确的图形。
图 1. NVIDIA 图灵关键特性
NVIDIA 图灵是世界上最先进的GPU 体系结构。高端 TU102 GPU 包括在台积电 12纳米 FFN ( FinFET NVIDIA )高性能制造工艺上制造了 186 亿个晶体管。
GeForce RTX 2080 Ti Founders Edition GPU 提供了以下卓越的计算性能:
14 . 2 TFLOPS 公司1峰值单精度( FP32 )性能
28 . 5 吨1半精度( FP16 )性能的峰值
14 . 2 提示1通过独立的整数执行单元与 FP 并行
113 . 8 张量 TFLOPS1,2
10 千兆射线/秒
78 太拉 RTX – 操作
Quadro RTX 6000 提供了专为专业工作流程设计的卓越计算性能:
16 . 3 TFLOPS 公司1峰值单精度( FP32 )性能
32 . 6 TFLOPS 公司1半精度( FP16 )性能的峰值
16 . 3 TIPS1 与 FP 并行,通过独立的整数执行单元
130 . 5 张量 TFLOPS1,2
10 千兆射线/秒
84 太拉 RTX –