KubeDL 加入 CNCF Sandbox,加速 AI 产业云原生化

KubeDL,阿里开源的基于Kubernetes的AI工作负载管理框架,成为CNCF Sandbox项目。它旨在解决AI工作负载在Kubernetes上的调度与管理挑战,包括分布式训练、模型管理和推理服务。KubeDL支持TensorFlow、PyTorch等框架,提供模型管理、推理服务规格调优等功能,并在阿里云的PAI-DLC产品中得到广泛应用。
摘要由CSDN通过智能技术生成

2021 年 6 月 23 日,云原生计算基金会(CNCF)宣布通过全球 TOC 投票接纳 KubeDL 成为 CNCF Sandbox 项目。KubeDL 是阿里开源的基于 Kubernetes 的 AI 工作负载管理框架,取自"Kubernetes-Deep-Learning"的缩写,希望能够依托阿里巴巴的场景,将大规模机器学习作业调度与管理的经验反哺社区。

项目地址:http://kubedl.io

项目介绍

随着 TensorFlow, PyTorch,XGBoost 等主流 AI 框架的不断成熟,和以 GPU/TPU 为代表的多种AI异构计算芯片的井喷式涌现,人工智能正快速进入“大规模工业化”落地的阶段。从算法工程师着手设计第一层神经网络结构,到最终上线服务于真实的应用场景,除 AI 算法的研发外还需要大量基础架构层面的系统支持,包括数据收集和清理、分布式训练引擎、资源调度与编排、模型管理,推理服务调优,可观测等。如以下经典图例所展示,众多系统组件的协同组成了完整的机器学习流水线。

与此同时,以 Kubernetes 为代表的云原生技术蓬勃发展,通过优秀的抽象和强大的可扩展性,将应用层与 IaaS(Infrastructure as a Service)层的基础设施完美解耦:应用能够以“云”的范式按需使用资源,无需关注底层基础设施的复杂性,从而解放生产力并专注于自身领域的创新。

Kubernetes 的出现解决了云资源如何高效交付的问题,但对于 AI 这类本身具备高度复杂性的工作负载还无法做到很好地原生支持,如何整合各类框架的差异并保留其通用性,同时围绕 AI 工作负载的运行时去建设一系列完善的周边生态及工具,业界还在不断探索与尝试。在实践中,我们发现了 AI 负载运行在 Kubernetes 生态中面临着如下挑战:

  • 机器学习框架百花齐放,各自有不同的优化方向和适用场景,但在分布式训练作业的生命周期管理上又存在着诸多共性,同时针对一些高级特性也有相同的诉求(如网络模式,镜像代码分离,元数据持久化,缓存加速等)。为每类框架的负载单独实现 operater,各自独立进程无法共享 state,缺乏全局视角,使得全局 Job 层面的调度以及队列机制难以实现。此外,不利于功能的抽象和复用,在代码层面存在重复劳动。
  • 原生 Kubernetes 无法满足离线任务多样的调度需求。Kubernetes 面向 Pod 调度的模型天然适用于微服务等 Long Running 的工作负载,但针对离线任务的高吞吐,Gang Scheduling 调度(All-Or-Nothing),Elastic Capacity 等多种调度诉求,社区演进出了多
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值