【kubeflow文档】Kubeflow Training Operator

张忠琳

已于 2024-06-05 20:10:25 修改

阅读量918

点赞数 4

分类专栏： kubeflow 文章标签： kubeflow

于 2024-06-05 19:40:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhonglinzhang/article/details/139480315

版权

What is Training Operator

Training Operator是一个Kubernetes原生项目，用于对使用各种ML框架（如PyTorch、TensorFlow、XGBoost等）创建的机器学习（ML）模型进行微调和可扩展的分布式训练。

用户可以将HuggingFace、DeepSpeed或Megatron LM等其他ML库与Training Operator集成，以协调他们在Kubernetes上的ML培训。

Training Operator允许您使用Kubernetes工作负载，通过Kubernete自定义资源API或使用Training Operator Python SDK有效地训练您的大型模型。
用户可以使用Training Operator和MPIJob运行高性能计算（HPC）任务，因为它支持在大量用于HPC的Kubernetes上运行消息传递接口（MPI）。

Training Operator负责调度适当的Kubernetes工作负载，以针对不同的ML框架实现各种分布式训练策略。

Why Training Operator

Training Operator解决了AI/ML生命周期中的模型训练和模型微调步骤，如图所示：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。