异构计算
文章平均质量分 79
古猫先生
长期混迹存储领域,先后供职于知名半导体外企和互联网存储研发,欢迎留言or私信交流~
展开
-
CXL与NVME融合场景下, 计算存储应用案例分析
目标是避免数据从存储设备传输到主机内存再返回存储设备的传统过程中的数据搬运成本。通过利用CXL和NVMe技术的结合,可以在存储层直接对数据进行处理,即所谓的计算存储(Computational Storage)。这特别适用于那些需要对数据进行快速处理然后存储的场景,比如数据压缩、加密、过滤等。数据准备:应用程序使用CXL.mem指令直接将输入数据写入到位于SLM(Subsystem Local Memory,子系统本地内存)的CXL内存地址空间中的输入数据缓冲区。原创 2024-07-25 22:23:24 · 1505 阅读 · 0 评论 -
CXL与NVME融合的必要
CXL 3.0引入了内存一致性特性,使得CXL设备上的存储资源可以像系统内存一样被直接寻址和使用,提高了数据处理的灵活性和效率。CXL与NVMe的融合是高性能计算和存储系统发展的必然趋势,它解决了传统架构中内存、存储分离所带来的效率问题,推动了计算和存储资源的深度融合,为下一代数据中心和云计算应用提供了强大的基础设施支持。此外,CXL协议内存一致性,确保所有设备对内存的视图是一致的,提升了系统整体的协调性和数据新鲜度,减少了数据复制的需求和潜在的陈旧数据问题。,显著提高了数据处理效率。原创 2024-07-25 22:22:28 · 917 阅读 · 0 评论 -
计算存储背景与发展
随着云计算、企业级应用以及物联网领域的飞速发展,当前的数据处理需求正以前所未有的规模增长,以满足存储行业不断变化的需求。在这种定义下,NVMe强调将存储设备转化为可编程的计算资源,以实现更高效的数据处理和管理。去年,NVME协议组织为了解决这些性能问题并为供应商提供标准化机制,在其架构中集成优化的计算功能,开发了NVM Express® (NVMe®) 计算存储特性。在此背景下,计算存储技术应运而生,通过在存储设备内部集成计算资源,实现数据的本地处理,极大提升了数据处理速度和效率。原创 2024-07-25 22:21:27 · 992 阅读 · 0 评论 -
DPU:值不值得托付下一代存储加速架构?
在信息爆炸的时代,数据处理单元(DPU)作为新兴的数据中心基础设施核心,正逐步崭露头角,成为提升数据处理效率、优化成本结构的关键角色。传统的数据中心架构主要以CPU为中心,这使得数据中心的计算和存储任务主要依赖于CPU的处理能力。但是,随着数据量的不断增长,这种架构逐渐显现出一些问题和瓶颈,如处理速度慢、效率低下等。目前已经从传统CPU为中心的架构,开始向以数据为中心的新型架构转变。新的架构处理需求,就涌现了多种卸载传统CPU计算能力的产品,比如DPU、CSD等。原创 2024-07-17 22:44:33 · 1713 阅读 · 0 评论 -
CXL-GPU: 全球首款实现百ns以内的低延迟CXL解决方案
Panmnesia的GPU架构设计和集成方案通过创新地融合CXL控制器与内存/SSD控制器功能,创建了一个高度优化的系统,该系统不仅解决了与GPU缓存系统兼容的问题,还通过一个灵活且高效的CXL RC设计,实现了对不同类型EP设备的支持。这一控制器展现出了两位数纳秒级的往返延迟,这是迄今为止报道中最快的。计算单元访问:CXL允许GPU或其他计算单元如同访问本地内存一样,直接通过标准的加载/存储指令来读写这些外挂的存储设备,从而避免了通过CPU和系统内存作为中介的传统做法,减少了数据搬运的开销和延迟。原创 2024-07-03 22:32:57 · 2220 阅读 · 0 评论 -
万字长文|下一代系统内存数据加速接口SDXI解读
同时,传统的数据移动缺乏有效的虚拟化支持,且各厂商的直接内存访问(DMA)引擎及其接口没有统一的标准,给用户级软件的利用带来了不便。明确的暂停、恢复能力:SDXI具有清晰定义的能力,可以暂停、恢复每个地址空间数据移动器的架构状态,这对于实现实时工作负载或虚拟机在服务器间的迁移至关重要,有助于实现无中断的维护和动态资源调度。用户模式数据移动的标准接口:一旦连接建立,SDXI允许在用户模式下直接进行地址空间之间的数据移动,无需特权软件介入,降低了数据传输的复杂度和延迟,提高了应用层的性能。原创 2024-07-01 21:49:30 · 1878 阅读 · 0 评论 -
探索10万GPU集群:H100时代的电力、网络与可靠性挑战
10万GPU集群的构建不仅是对技术的极限挑战,也是对未来AI发展方向的一次深远探索。在人工智能(AI)领域,我们正站在一个前所未有的转折点上,多家大型AI实验室,包括但不限于OpenAI/Microsoft、xAI、Meta等,正竞相构建拥有超过10万个GPU的超级集群,旨在推动AI能力进入下一个发展阶段。构建一个10万GPU规模的集群,其电力需求达到了惊人的150兆瓦以上,每年消耗的电量高达1.59太瓦时,相当于一个小国一年的用电量,成本约为1.24亿美元(按每千瓦时0.078美元的标准费率计算)。原创 2024-06-20 23:40:55 · 818 阅读 · 0 评论 -
三星SAINT-D技术引领HBM内存堆叠革命
三星的3D封装技术平台称为SAINT(Samsung Advanced Interconnect Technology),包含三种不同的3D堆叠技术:SAINT-S针对SRAM,SAINT-L针对逻辑芯片,而SAINT-D则专注于在逻辑芯片如CPU或GPU顶部堆叠DRAM。展望未来,三星的目标是在2027年前推出全集成异构技术,这一未来技术将能够集成两层逻辑芯片、通过中介层连接的HBM内存,甚至是共封装光学(CPO)技术,进一步推动高性能计算和数据中心应用的界限。原创 2024-06-18 22:53:15 · 686 阅读 · 0 评论 -
看完这份AI全栈科普资料,让你立赚百万!
开源免费的,有ppt,pdf,有B站和油管还有视频,简直是一个宝藏。对比市面上那种收费AI课程,估计至少得大几百万了~,,有几十个作者联合更新,目前还没更新完毕,持续更新中。这个开源的github库已经收到了。开源地址:https://github.com/chenzomi12/AISystem/如果您看完有所受益,欢迎点击文章底部左下角“也说明其受欢迎程度非常火爆。原创 2024-06-17 22:44:40 · 888 阅读 · 0 评论 -
AI存储解决案例分享
阿里云利用对象存储 OSS 的能力,构建统一的数据湖存储,利用对象存储 OSS 的海量扩展、低成本的存储能力,搭建 AI 场景数据存储底座。AI应用程序在处理大规模数据集和复杂模型训练时,往往展现出独特的IO模型,特别是当提到"数百万个小IO读写操作"时,AI工作负载,尤其是在深度学习训练阶段,经常涉及对大量小块数据的频繁读取和写入操作。分层存储:采用多层次存储方案,将频繁访问的数据或活跃数据缓存在高速存储(如SSD)中,而较少访问的数据则存储在低成本但容量大的存储(如HDD)中。原创 2024-06-17 22:40:32 · 1101 阅读 · 0 评论 -
AI重点从训练转向推理
然而,随着模型的不断成熟和应用场景的多样化,如何高效地将这些模型应用于实际业务场景,即AI推理,成为了新的关注点。训练阶段:AI模型训练是一个高度数据密集型的过程,需要频繁地读取大量训练数据,对存储的读取速度和带宽有着极高的要求。推理阶段:相比之下,推理过程更多地依赖于模型而非原始数据,对存储的读写性能要求相对较低,但对响应时间和低延迟有更高要求。随着重点转向推理,对存储容量的需求可能减少,但同时对成本效益的追求增加,企业可能会倾向于采用更为经济的存储解决方案,如混合存储或分层存储策略,以平衡成本与性能。原创 2024-06-17 22:39:56 · 290 阅读 · 0 评论 -
AI训练Checkpoint对存储的影响
同时,模型参数的数量直接影响到检查点文件的大小。读取器的数量(即同时读取检查点文件的进程数量)取决于数据并行的程度——如果数据并行度高,即有更多的GPU参与,可能就需要更多的读取器来加速状态恢复过程。数据并行训练中的效率考虑:在数据并行的设置下,由于所有GPU上运行的是模型的相同副本,只需保存一个GPU上的模型实例即可,无需为每个GPU都保存一份完整的内存状态。顺序读取检查点文件:通常情况下,检查点文件是按顺序读取的,这意味着恢复过程会逐一处理这些文件,以确保模型和优化器的状态得到完整且正确的重建。原创 2024-06-17 22:38:51 · 1787 阅读 · 0 评论 -
AI爆发给存储架构带来的挑战
特别是对于深度学习模型,其训练往往涉及数百万甚至数十亿次的矩阵运算,为了充分利用昂贵的GPU资源,存储系统必须能迅速提供训练所需的数据,保证GPU始终忙碌于计算而非等待数据加载。AI大模型的训练需要处理极大规模的原始数据,这些数据来自多元化的渠道,要求存储系统不仅要有大容量,还要能低成本、高效率地进行数据存储。有效的存储管理策略能够帮助组织优化存储资源,如通过分层存储策略,将频繁访问的热数据存储在高性能的闪存上,而将较少访问的冷数据迁移到成本更低的硬盘或云存储中。原创 2024-06-17 22:38:17 · 763 阅读 · 0 评论 -
NCCL P2P与共享内存SHM的差异
**定义与原理**:在NCCL中提到的SHM,是指在同一个主机节点上,通过操作系统提供的共享内存机制,使得不同进程(或GPU)能够访问同一块物理内存。总结来说,P2P和SHM都是为了提高GPU间通信效率,但P2P更侧重于直接、高效的硬件级数据交换,而SHM则更灵活,能够适应更多种类的系统配置,但可能牺牲一部分性能。- **特点**:P2P通信速度快,延迟低,带宽高,特别适合大规模数据交换,是加速深度学习模型训练和高性能计算中的数据同步(如梯度交换)的关键技术。### 底层原理的差异。原创 2024-06-13 00:12:17 · 1018 阅读 · 0 评论 -
分析解读NCCL_SHM_Disable与NCCL_P2P_Disable
在NVIDIA的NCCL(NVIDIA Collective Communications Library)库中,`NCCL_SHM_Disable` 和 `NCCL_P2P_Disable` 是两个重要的环境变量,它们控制着NCCL在多GPU通信中的行为和使用的通信机制。- **影响**:禁用SHM后,NCCL在同节点内的通信将不得不依靠其他机制,如通过网络接口(如InfiniBand或TCP/IP)来进行通信,这通常会导致通信延迟增加和带宽效率下降。原创 2024-06-13 00:11:13 · 1552 阅读 · 0 评论 -
详细分析解读NCCL P2P原理与概念
NCCL(NVIDIA Collective Communications Library)中的P2P(Peer-to-Peer)通信是指在多GPU系统中,GPU之间直接交换数据而不需要通过CPU内存作为中转的过程。这种直接通信方式对于加速深度学习和高性能计算中的多GPU协作至关重要,因为它减少了数据传输的延迟并提高了整体系统吞吐量。原创 2024-06-13 00:05:43 · 1251 阅读 · 0 评论 -
NCCL共享内存概念解读分析
NCCL_SHM_DISABLE 环境变量的作用是禁用 NVIDIA Collective Communications Library (NCCL) 中的共享内存(Shared Memory,简称 SHM)传输方式。NCCL 是一个广泛用于加速多GPU间通信的库,尤其在深度学习和高性能计算领域中非常关键。原创 2024-06-13 00:02:34 · 1560 阅读 · 1 评论 -
英伟达GPU NCCL原理介绍
2. **点对点通信**:除了集体通信,NCCL还支持点对点的通信原语,比如发送(Send)、接收(Recv)以及更复杂的all-to-all、scatter、gather操作,这些对于灵活的数据分配和同步也很有用。1. **安装NCCL**:根据你的CUDA版本和操作系统,从NVIDIA官网下载相应的NCCL库并安装。3. **优化的通信算法**:NCCL利用高效的通信算法和优化的实现,包括在单一CUDA内核上执行通信和计算操作的能力,减少了同步开销和资源需求,以达到更高的带宽利用率和更低的延迟。原创 2024-06-13 00:01:10 · 1099 阅读 · 0 评论 -
三家内存原厂争抢英伟达高端GPU HBM市场
根据总带宽和内存总线宽度,这表明 H200 的内存将以大约 6.5Gbps/引脚的速度运行,与原始 H100 的 5.3Gbps/引脚 HBM3 内存相比,频率提高了约 25%。因此,客户无法访问板载的所有 144GB,但与 H100 相比,他们可以访问所有六个堆栈,并具有容量和内存带宽优势。值得注意的是,各原厂的HBM3e验证结果,也将决定最终NVIDIA 2024年在HBM供应商的采购权重分配,然目前验证皆尚未完成,因此2024年HBM整体采购量仍有待观察。如果这个计划成功,Nvidia将超越所有人。原创 2023-12-10 22:14:46 · 1037 阅读 · 0 评论 -
CXL崛起:2024启航,2025年开启新时代
三星和海力士目前都发布了CXL内存扩展方案,Marvell也为了CXL收购了CXL技术领先开发商Tanzanite,国内厂商澜起科技在今、去年也发布全球首款CXL内存扩展控制器芯片(MXC), 三星的CXL 2.0产品也是采用的澜起CXL内存扩展控制器。Typ2: GPU、FPGA等计算设备都配置了内存,可以使用CXL.io、CXL.cache、CXL.memory三个协议组合,CPU和计算设备之间可以相互快速访问,同样可以降低访问的延迟。用于初始化、链接、枚举、注册,CXL设备必须要支持CXL.io.原创 2023-11-20 22:25:00 · 1396 阅读 · 0 评论 -
天下苦英伟达GPU久矣,多个大厂传出正在自研AI芯片
H100是英伟达在2022年发布的一款旗舰级人工智能加速器,它采用了Hopper架构,内存带宽达到了每秒8.7TB,相较于A100,H100拥有更强大的计算能力和更大的内存带宽,因此适用于更为复杂的AI应用和大规模的训练任务。A100是英伟达在2020年发布的一款人工智能加速器,它采用了安培架构,内存带宽达到了每秒614GB,相较于V100,A100拥有更大的内存和更强大的计算能力,因此更适用于大规模的AI训练和推理任务。可以说,在这个信息爆炸的时代,GPU就是那个推动进步的强大引擎。原创 2023-10-08 10:45:40 · 1121 阅读 · 0 评论 -
OpenCL的基本介绍
与内核相关的计算,在运行时只作为内核实例执行。通过映射,可以将设备全局存储器区域映射到主机可以访问的地址空间,而除了这种方式,在OpenCL2.0中,OpenCL通过共享虚拟存储器(Shared Virtual Memory,SVM)机制扩展了全局存储器区域到主机内存区域的方式。由于OpenCL设备通常没有I/O处理功能,因此I/O操作通常由主机承担,这意味着程序开始执行时,数据通常在主机上,故OpenCL设备需要从主机上获得数据,在OpenCL设备计算完成后,有需要将数据从OpenCL设备复制回主机。转载 2022-09-24 22:16:29 · 2578 阅读 · 0 评论