AI硬件知识-CSDN博客

本文链接：https://blog.csdn.net/weixin_44245188/article/details/146936607

AI硬件

A800只是在A100的基础上，将NVLink高速互连总线的带宽从600GB/s降低到400GB/s，仅此而已。

瑞芯微 RockX RKNN

昇腾 CANN

海光 ROCm

寒武纪 Neuware

自建生态是长久之道，国产头部算力生态厂商受益。全球来看主要的追赶者AMD和Intel均是走兼容模式为主，是以移植方式兼容CUDA生态，以此次报道的要求来看或短期不受影响。国内核心国产AI算力芯片技术路线中，华为昇腾自建CANN生态、寒武纪自建生态Neuware、海光使用AMD的ROCm平台，其中自建生态的华为昇腾和寒武纪在生态自主上走的更稳更远，而海光当前短期或不受影响且可借力AMD，报道中提到的登临科技、摩尔线程、壁仞科技等AI芯片创业或面临较大的AI算力生态压力。

CUDA 库主要包括以下几个部分：

CUDA Runtime API：这是CUDA的核心库，提供了运行时的设备初始化、内存管理、内核执行等功能。

CUDA Driver API：这是CUDA的底层驱动库，提供了与设备和操作系统底层交互的功能。

CUDA CUDART库：这是CUDA运行时库，提供了C语言的标准数学函数和其他功能的接口。

CUDA CUBLAS库：这是CUDA的线性代数库，提供了高效的矩阵和向量运算。

CUDA CUFFT库：这是CUDA的快速傅立叶变换库，用于进行傅立叶变换。

CUDA CURAND库：这是CUDA的随机数库，用于生成各种分布的随机数。

随着 AI 和 HPC 数据集的大小不断增加，为给定应用程序加载数据所花费的时间开始对整个应用程序的性能造成压力。在考虑端到端应用程序性能时，快速的 GPU 通过缓慢的 I/O 将显著降低GPU的利用率。

I/O 是将数据从存储加载到 GPU 进行处理的过程，历来由 CPU 控制。随着计算从较慢的 CPU 转移到更快的 GPU，I/O 越来越成为整体应用程序性能的瓶颈。

正如 GPUDirect RDMA（远程直接内存地址）在网络接口卡 (NIC) 和 GPU 内存之间直接移动数据时改善了带宽和延迟一样，一种名为 GPUDirect Storage 的新技术支持本地或远程存储（例如：NVMe 或 NVMe over Fabric (NVMe-oF)）与GPU内存之间的直接移动数据。

GPUDirect Storage

在GPU加速系统当中，所有的IO操作都会先经过主机端，也就是需要经过CPU指令把数据传到主机内存里，然后才会到达GPU，CPU通常会通过“bounce buffer”来实现数据传输，“bounce buffer”是系统内存中的一块区域，数据在传输到GPU之前会在这里保存一个副本。很明显，这种中转会引额外延迟和内存消耗，降低运行在GPU上的应用程序的性能，还会占用CPU资源，这就是GPUDirect Storage要解决的问题。

GDS 的工作原理

NVIDIA 力求尽可能采用现有标准，并在必要时扩展这些标准。 POSIX 标准的 pread 和 pwrite 提供存储和 CPU 缓冲区之间的复制，但尚未启用到 GPU 缓冲区的复制。 Linux 内核中不支持 GPU 缓冲区的缺点将随着时间的推移得到解决。

一种名为 dma_buf 的解决方案正在开发中，该解决方案可以在 NIC 或 NVMe 和 GPU 等 PCIe 总线上的对等设备之间进行复制，以解决这一问题。

与此同时，GDS 的性能提升空间太大，无法等待上游解决方案传播给所有用户。许多供应商都提供了支持 GDS 的替代解决方案，如：MLNX_OFED。 GDS 解决方案涉及新的 API：cuFileRead 或 cuFileWrite，它们与 POSIX pread 和 pwrite 类似。

动态路由、NVLink 的使用以及只能从 GDS 获得的用于 CUDA 流的异步 API 等优化使得 cuFile API 成为 CUDA 编程模型的持久特性，即使在解决了 Linux 文件系统中的缺陷之后也是如此。

以下是 GDS 实施的作用。
首先，当前 Linux 实现的根本问题是将 GPU 缓冲区地址作为 DMA 目标向下通过虚拟文件系统 (VFS) 传递，以便本地 NVMe 或网络适配器中的 DMA 引擎可以执行与 GPU 内存之间的传输。这会导致错误情况。我们现在有一个解决这个问题的方法：传递 CPU 内存中缓冲区的地址。

当使用 cuFileRead 或 cuFileWrite 等 cuFile API 时，libcufile.so 用户级库捕获 GPU 缓冲区地址并替换传递给 VFS 的代理 CPU 缓冲区地址。就在缓冲区地址用于 DMA 之前，启用 GDS 的驱动程序对 nvidia-fs.ko 的调用会识别 CPU 缓冲区地址并再次提供替代 GPU 缓冲区地址，以便 DMA 可以正确进行。

libcufile.so 中的逻辑执行前面描述的各种优化，例如：动态路由、预固定缓冲区的使用和对齐。

TSMC N7（7纳米工艺）-DUV（深紫外线）光刻技术
TSMC N4（4纳米工艺）-EUV（极紫外线）光刻技术

FPGA 相比同等面积和工艺 ASIC 的算力差着数量级

大多数大模型 16-bit 权重真的可以量化到 8-bit 而不太损失精度。但要压缩到 4-bit，精度一般就会有比较大的损失了。

NVIDIA 的 Tensor Core 也可以很高效地执行 16-bit 和 8-bit 的计算，8-bit 的算力基本上是 16-bit 的两倍。

FPGA 还是适合用来做智能网卡，也适合做存储编码、压缩、加密等特定算法的加速。AI 大模型还是 ASIC 更在行。