【论文阅读】

牛码当驴

于 2024-03-13 13:52:23 发布

阅读量490

点赞数 5

分类专栏：云计算算法论文阅读文章标签：论文阅读人工智能云计算

本文链接：https://blog.csdn.net/weixin_46091520/article/details/136678104

版权

9 篇文章 0 订阅

订阅专栏

8 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

本文分析了Microsoft的GPU集群在处理DNN训练工作负载时面临的挑战，包括队列调度中的局部性和资源利用，以及故障管理和干扰问题。作者介绍了使用Apache-Yarn进行资源管理和调度的方法，并提出了未来改进策略，如局部性优先和故障处理的优化。

摘要由CSDN通过智能技术生成

出处：2019 USENIX-TAC 大规模多租户GPU集群对DNN训练工作负载的分析
主要工作：描述了Microsoft中一个多租户GPU集群两个月的工作负载特征，研究影响多租户集群上DNN训练工作负载的集群利用率的三个问题：
- 队列调度和局部性约束对队列的影响。
- 局部性对GPU利用率的影响。
- 训练期间的故障问题。
介绍GPU集群Philly：

请添加图片描述

① 传入作业和排队：用户可指定GPU数量，调度器跟踪集群中所有空闲GPU，调度时首先考虑机架，然后考虑机架中可用GPU最多的服务器。

②作业放置和利用：将小作业打包到更少的服务器中来避免资源碎片。一旦作业被安排运行，它的GPU就不会与其他作业共享。

③训练进度和完成情况：有三种可能情况：passed：已完成；killed：被用户终止；unsuccessful：不成功。

工具：Apache-Yarn，是一种新的Hadoop资源管理器，是一个通用资源管理系统和调度平台，可以为上层应用提供统一的资源管理和调度。
展望：
- 局部性优先：缺乏局部性会影响利用率和作业运行时间。等待有限的时间来查看是否可以实现局部性，如果不能，则使用局部性宽松的可用资源来调度作业( 从而减少用户的排队时间)。
- 减轻干扰：将不同小作业放在专用服务器上，而不是打包到单个服务器，从而减少这些作业之间的干扰，但会增加碎片化。所以要支持作业迁移以对集群进行碎片整理。
- 改进故障处理：大量作业失败是由于代码或配置中的用户错误造成，语法检查可以放置许多错误，并且可以通过运行训练的第一次迭代来捕获一些运行时错误。

关注

专栏目录