NVIDIA Turing Architecture架构设计(上)

NVIDIA Turing GPU架构带来前所未有的体系结构飞跃,融合实时光线追踪、人工智能和传统图形处理,大幅提升游戏和专业应用的效率与性能。新加入的张量核心支持深度学习,实现如DLSS这样的新效果。RT核心则为实时光线追踪提供硬件加速,为3D图形带来真实感。此外,图灵架构还包括GDDR6内存、独立的整数数据路径和多种高级着色技术,如网格着色和可变速率着色,进一步优化图形处理性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

NVIDIA Turing Architecture架构设计(上)

在游戏市场持续增长和对更好的 3D 图形的永不满足的需求的推动下, NVIDIA ®已经将 GPU 发展成为许多计算密集型应用的世界领先的并行处理引擎。除了渲染高度逼真和身临其境的 3D 游戏外, NVIDIA GPUs 还可以加速内容创建工作流、高性能计算( HPC )和数据中心应用程序,以及众多人工智能系统和应用程序。新的 NVIDIA 图灵 GPU 架构建立在 GPU 长期领导地位的基础上。

图灵代表了十多年来最大的体系结构飞跃,它提供了一个新的核心 GPU 体系结构,使 PC 游戏、专业图形应用和深度学习推理的效率和性能有了重大提高。

使用新的基于硬件的加速器和混合渲染方法,图灵融合了光栅化、实时光线跟踪、人工智能和模拟技术,在电脑游戏中实现令人难以置信的真实感、由神经网络驱动的惊人新效果、电影质量的交互体验以及创建或导航复杂 3D 模型时的流体交互。

在核心架构中,图灵显著提升图形性能的关键因素是一个新的 GPU 处理器(流式多处理器 SM )架构,它提高了着色器执行效率,以及一个新的内存系统架构,其中包括对最新GDDR6 内存技术的支持。

图像处理应用程序,如 ImageNet Challenge 是深度学习的首批成功案例之一,因此,人工智能有潜力解决图形中的许多重要问题也就不足为奇了。图灵的张量核心支持一套新的基于深度学习的神经网络,除了为基于云的系统提供快速的人工智能推断外,还为游戏和专业图形提供惊人的图形效果。

长期以来备受追捧的计算机图形绘制的圣杯——实时光线跟踪现在已经在具有 NVIDIA 图灵 GPU 体系结构的单 GPU 系统中实现。图灵 GPUs 引入了新的 RT 核心,加速器单元致力于以非凡的效率执行光线跟踪操作,消除了过去昂贵的基于软件仿真的光线跟踪方法。这些新装置与 NVIDIA RTX ™ 软件技术和复杂的过滤算法使图灵能够提供实时光线跟踪渲染,包括具有物理精确阴影、反射和折射的真实感对象和环境。

在图灵开发的同时,微软在 2018 年初发布了 directmlforai 和 DirectX 光线跟踪( DXR ) api 。通过图灵 GPU架构和微软新的 AI 和光线追踪 API 的结合,游戏开发者可以在他们的游戏中快速部署实时 AI 和光线追踪。

除了具有开创性的人工智能和光线跟踪功能外,图灵还包括许多新的高级着色功能,这些功能可以提高性能,增强图像质量,并提供更高层次的几何复杂性。

图灵 GPUs 还继承了对
NVIDIA CUDA 的所有增强™ Volta 体系结构中引入的平台,可提高计算应用程序的能力、灵活性、生产力和可移植性。诸如独立线程调度、多应用程序地址空间隔离的硬件加速多进程服务( MPS )和协作组等特性都是图灵 GPU 体系结构的一部分。

一些新的 NVIDIA GeForce ®和 NVIDIA Quadro ™ GPU 产品将由图灵 GPUs 提供动力。在本文将重点介绍 NVIDIA 旗舰图灵 GPU 的体系结构和性能,该产品代号为 TU102 ,将在 GeForce RTX 2080 Ti 和 Quadro RTX 6000 上交付。技术细节,包括 TU104 和 TU106 图灵 GPUs 的产品规范,见附录。

图 1 展示了图灵如何用一个全新的架构来重塑图形,这个架构包括增强的张量核心、新的 RT 核心和许多新的高级着色功能。图灵结合了可编程着色、实时光线跟踪和人工智能算法,为游戏和专业应用程序提供了难以置信的真实感和物理精确的图形。
在这里插入图片描述

图 1. NVIDIA 图灵关键特性

NVIDIA 图灵是世界上最先进的GPU 体系结构。高端 TU102 GPU 包括在台积电 12纳米 FFN ( FinFET NVIDIA )高性能制造工艺上制造了 186 亿个晶体管。

GeForce RTX 2080 Ti Founders Edition GPU 提供了以下卓越的计算性能:

14 . 2 TFLOPS 公司1峰值单精度( FP32 )性能

28 . 5 吨1半精度( FP16 )性能的峰值

14 . 2 提示1通过独立的整数执行单元与 FP 并行

113 . 8 张量 TFLOPS1,2

10 千兆射线/秒

78 太拉 RTX – 操作

Quadro RTX 6000 提供了专为专业工作流程设计的卓越计算性能:

16 . 3 TFLOPS 公司1峰值单精度( FP32 )性能

32 . 6 TFLOPS 公司1半精度( FP16 )性能的峰值

16 . 3 TIPS1 与 FP 并行,通过独立的整数执行单元

130 . 5 张量 TFLOPS1,2

10 千兆射线/秒

84 太拉 RTX –

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值