关键字: [Amazon FSx for Lustre, Data Strategy, Private Data, Distributed Training, High-Performance Storage, Shared File System]
本文字数: 400, 阅读完需: 2 分钟
导读
在这场演讲中,演讲者探讨了亚马逊云科技存储解决方案(如Amazon FSx for Lustre)如何为AI/ML工作负载提供高性能数据访问。他们阐明,FSx for Lustre提供低延迟、高带宽,并与Amazon S3数据湖无缝集成。该演讲重点阐述了FSx for Lustre如何通过最小化数据等待时间,从而实现大型AI模型的高效分布式训练,让客户能够充分利用计算资源并加快训练时间。
演讲精华
在当今时代,人工智能(AI)和机器学习(ML)技术发展迅速,其中一个关键因素是存储基础设施的重要性。亚马逊云科技(亚马逊云科技)的存储专家Marco Speris和Laura Shepard与主持人Jasmine Kyles和A.M. Grabelli探讨了存储对于GenerativeAI(GenAI)和ML工作负载的重要性。
存储在GenAI和传统ML中扮演着两个主要角色。首先,每个组织都需要制定一个明确的数据策略。这意味着,如果组织拥有需要使用GenAI或ML来解决的重大问题或机会,同时也拥有与之相关的私有数据,那么组织更有可能利用这些数据来定制GenAI,例如使用RAG预训练、微调或训练自己的模型。相反,如果组织没有相关的私有数据,就不太可能投资于GenAI训练程序。成功的客户通常都从制定数据策略开始,在实施层面,他们发现在Amazon简单存储服务(S3)上构建一个完善的数据湖是最佳选择,因为S3及其集成的功能可以满足数据标注、规范化、出处、权限、跟踪等需求。
第二个方面是在大规模训练自己的模型时需要高性能存储。客户通常从较小规模开始,逐步增加模型参数和训练数据集的大小。当单个计算实例无法满足需求时,他们会将训练分布到多个实例上。但分布式训练会引入数据等待时间,包括延迟(访问第一个字节数据的时间)、带宽(数据传输速率)和数据复制等待时间。为了最小化这些等待时间,成功的客户选择使用高性能共享文件系统作为训练层,比如Amazon FSx for Lustre。它具有亚毫秒级延迟、TB/s级带宽,并且无需复制数据即可立即开始作业,从而最大限度地利用计算资源。
FSx for Lustre与S3有着本地集成,这是一个独特的优势。这意味着组织可以将数据保存在数据湖中,但在训练时通过高性能分布式文件系统访问,两者可以同时进行,无需数据复制或同步。这种存储与计算分离的架构带来了前所未有的创新,优化了资源利用,避免了不必要的开支。
为了演示FSx for Lustre的强大功能,Marco进行了一个现场演示。他在几秒钟内就建立了一个FSx Lustre文件系统,容量为100TB、吞吐量为100GB/s。接下来,他将这个文件系统与一个S3存储桶相关联,只需存储元数据而不占用实际空间,体现了与S3的无缝集成。有两种方式可以从S3加载数据到文件系统:懒加载(第一次读取时加载)和预加载。
Marco首先演示了懒加载过程。他选择了一个1.7GB的文件,发现第一次读取需要8秒钟,因为需要从S3将文件加载到文件系统。但后续读取只需0.5秒,因为文件已经缓存在本地。接下来,他使用hsm restore命令预加载了所有数据,观察到IOPS达到近100万,吞吐量超过100GB/s,展现了FSx for Lustre的高性能。
为了模拟分布式训练场景,Marco使用Slurm在40个节点上并行读取数据。Slurm是一个广泛使用的开源工具,用于在多个节点上调度和运行作业。在这个演示中,Marco在每个节点上使用32个vCPU进行读取操作。观察到IOPS高达817,009,吞吐量达164GB/s,远超文件系统原始配置,充分展现了FSx for Lustre的扩展能力。
完成训练后,Marco使用release命令将数据从文件系统释放回S3,节省存储空间以备下一个训练作业使用。这个过程只需9秒钟,体现了FSx for Lustre的灵活性和高效性。
总之,亚马逊云科技的FSx for Lustre通过与S3的本地集成、高性能、按需扩展等特性,为GenAI和大规模ML训练提供了出色的存储支持。它最小化了数据等待时间,优化了资源利用,帮助客户加速AI/ML工作负载,实现业务目标。在当今数据驱动的时代,拥有一个明智的存储策略对于GenAI和ML的成功至关重要。
总结
存储在加速生成式人工智能(GenAI)和机器学习(ML)工作负载中扮演着关键角色。制定健全的数据策略至关重要,通常可以通过在Amazon S3上构建完善的数据湖来实现,以利用私有数据定制GenAI模型。此外,在分布式训练中,高性能存储也至关重要,Amazon FSx for Lustre可以最小化延迟、带宽限制和数据复制等待时间,从而实现计算资源的高效利用。
演示展示了FSx for Lustre与S3的无缝集成,允许从数据湖延迟加载或预加载数据到高性能文件系统。它展示了FSx for Lustre如何处理大量吞吐量和IOPS,随着容量线性扩展,同时提供低延迟。演示还展示了在训练后将数据释放回S3的能力,优化存储利用率。
最后,演讲强调了将存储与计算分离的重要性,这有助于创新和节省成本。它鼓励利用适当的存储解决方案,如FSx for Lustre,以最大化计算利用率并加速GenAI和ML工作负载。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选,通过生成式AI技术栈,提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 -- 在中国,亚马逊云科技通过安全、稳定、可信赖的云服务,助力中国企业加速数字化转型和创新,并深度参与全球化市场。