自动跟踪收集和分析

请大佬指教

已于 2024-07-11 10:46:59 修改

阅读量77

点赞数

文章标签： pytorch 人工智能

于 2024-07-11 10:46:11 首次发布

原文链接：https://pytorch.org/blog/automated-trace-collection/

版权

原文链接：Automated trace collection and analysis | PyTorch

在这篇博客中，我们分享了如何在没有任何用户端代码检测的情况下启用 PyTorch Profiler 跟踪的收集和分析，以用于训练工作负载。我们利用 Dynolog（一个用于 CPU 和 GPU 遥测的开源守护进程）来收集 PyTorch Profiler 跟踪，并使用 Holistic Trace Analysis（一个用于分析 PyTorch Profiler 跟踪的开源库）分析收集到的跟踪。该工具链使 Meta 的工程师能够加速他们的性能优化工作流程。我们解决方案的关键是在 PyTorch 中为基本 Optimizer 类实现前置和后置挂钩。我们在一个简短的视频中演示了使用 Dynolog 的 PyTorch 跟踪收集。

问题

Meta 的软件开发人员每天都会运行大量分布式训练。为了确保 GPU 得到有效利用，有必要测量和分析所有参与工作的 GPU 性能。此外，开发人员需要具备自省模型的能力，并了解 CPU 和 GPU 如何交互以调试性能问题。开发人员使用少量 GPU 构建初始原型，生产版本可扩展到数百或数千个 GPU，服务于生成式 AI、推荐系统、广告排名等众多业务用例。

鉴于 Meta 的规模，有必要拥有用于性能测量和监控的工具链，这些工具链开销低且可以无缝协作，以保持较高的开发人员效率。

在本博客中，我们描述了如何使用 PyTorch Profiler、Dynolog（遥测守护程序）和 Holistic Trace Analysis（性能调试库）在没有任何用户端代码检测的情况下收集跟踪，并对其进行分析以识别 GPU 利用率较低的作业。

解决方案

下图概述了工具链如何协同工作。

1、用户启动 PyTorch 应用程序。

2、训练服务或用户使用Dynolog CLI触发分析会话，CLI通过网络向Dynolog daemon发送请求。

3、Dynolog daemon将分析配置中继到 PyTorch 应用程序，将其临时设置为分析模式。

4、PyTorch Profiler收集跟踪并将其存储到数据库（例如，网络文件系统或 S3 存储桶）。

5、然后使用整体跟踪分析 (HTA) 分析收集到的跟踪。

深入了解每个组件

Dynolog

Dynolog 是用于异构 CPU-GPU 系统的轻量级监控守护进程。它支持持续监控 CPU（利用率、网络带宽、每秒指令数）和 GPU（SM 占用率、DRAM 带宽、GPU 功耗）的性能指标。此外，dynolog 还导出 API 以收集可通过 dyno CLI 访问的深度分析数据。

Dynolog 提供的主要集成之一是与 PyTorch Profiler 交互。这样就可以使用单个命令进行按需远程跟踪，以跟踪数千台服务器。这可以通过使用 dyno gputrace 命令来实现。

PyTorch Profiler

GPU 内核异步执行，需要 GPU 端支持才能创建跟踪。NVIDIA 通过 CUPTI 库提供这种可见性。Kineto 是 Profiler 中与 CUPTI 交互的子系统。PyTorch Profiler 利用 Kineto 库来收集 GPU 跟踪。为了能够在无需任何用户端代码检测的情况下大规模自动分析训练工作负载，我们对 PyTorch 进行了一些根本性更改。这些更改允许在无需任何用户干预的情况下收集跟踪。

注册：首先，我们修改了 PyTorch，使其在启动时向 Dynolog 守护程序注册。通过设置环境变量 KINETO_USE_DAEMON=True 来启用此功能。将此环境变量设置为 True 后，PyTorch Profiler 会定期轮询 Dynolog 以检查按需跟踪请求。
迭代钩子：然后，我们为基础优化器类实现了前置和后置钩子。这使我们能够注释训练迭代的开始/结束。然后，分析器会知道迭代次数，并且可以安全地在跟踪中捕获固定数量的迭代。

Holistic Trace Analysis (HTA)

机器学习研究人员和工程师经常难以通过计算扩展他们的模型，因为他们不知道工作负载中的性能瓶颈。大型分布式训练作业可能会生成数千条跟踪，其中包含的数据太多，人类无法检查。这就是整体跟踪分析的作用所在。HTA 是一个用于性能分析的开源库 - 它将 PyTorch Profiler 跟踪作为输入，并提升其中包含的性能信息。其目标是帮助研究人员和工程师从硬件堆栈中获得最佳性能。为了帮助性能调试，HTA 提供了以下功能（部分列表）：