像Google一样构建机器学习系统3 - 利用MPIJob运行ResNet101

最新推荐文章于 2021-03-10 23:25:36 发布

数据库技术分享者

最新推荐文章于 2021-03-10 23:25:36 发布

阅读量324

点赞数

文章标签： python 工作流

本文链接：https://blog.csdn.net/weixin_43970890/article/details/90295327

版权

本文档介绍如何使用阿里云Kubeflow Pipelines运行分布式MPI任务，以训练ResNet101模型。内容包括开发MPIRun Pipeline、运行试验、查看运行结果，并探讨MPIJob API的灵活性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本系列将利用阿里云容器服务，帮助您上手Kubeflow Pipelines.

第一篇：在阿里云上搭建Kubeflow Pipelines
第二篇：开发你的机器学习工作流
第三篇：利用MPIJob运行ResNet101

从上篇文章中，我们可以看到如何通过Kubeflow Pipeline运行单节点任务机器学习工作流，在本文中，我们会介绍如何使用Pipeline运行分布式MPI任务，该MPI任务运行模型ResNet101的测试。

开发MPIRun Pipeline

由于Kubeflow Pipelines提供的例子多数都是单机任务，那么如何利用Pipelines运行分布式训练？阿里云容器服务团队提供了利用MPIJob训练ResNet101模型的例子，方便您在阿里云上使用和学习Kubeflow Pipelines，并且训练支持分布式的allreduce模型训练。

在Kubeflow Pipelines中可以用Python代码描述了这样一个流程, 完整代码可以查看mpi_run.py。我们在这个例子中使用了arena_op这是对于Kubeflow默认的container_op封装，能够实现对于分布式训练MPI和PS模式的无缝衔接，另外也支持使用GPU和RDMA等异构设备和分布式存储的无缝接入，同时也方便从git源同步代码。是一个比较实用的工具API。而arena_op是基于开源项目Arena。

  env = ['NCCL_DEBUG=INFO','GIT_SYNC_BRANCH={0}'.format(git_sync_branch)]

  train=arena.mpi_job_op(
    name="all-reduce",
    image=image,
    env=env,
    data=[data],
    workers=workers,
    sync_source=sync_source,
    gpus=g

最低0.47元/天解锁文章