深度学习分布式训练实战（二）——TF

最新推荐文章于 2023-11-11 18:07:21 发布

小肥柴不是小废柴

最新推荐文章于 2023-11-11 18:07:21 发布

阅读量595

点赞数

本文链接：https://blog.csdn.net/xs11222211/article/details/84262491

版权

本文深入探讨了TensorFlow（TF）的分布式训练，包括图内和图间分布式实现，重点介绍了图间分布式及其在异步和同步更新下的应用。TF的图间分布式基于gRPC通信框架，通过ps和worker job协调参数更新和计算任务。文中提供了异步更新的分布式训练代码示例，并指出同步更新需要额外的同步机制。同步更新的实现涉及`tf.train.SyncReplicasOptimizer`接口，代码中进行了相应调整。

摘要由CSDN通过智能技术生成

本篇博客主要介绍TF的分布式训练，重点从代码层面进行讲解。理论部分可以参考深度学习分布式训练实战（一)

TF的分布式实现方式

TF的分布式有两种实现方式，一种是图内分布式（In-graph replication）；一种是图间分布式(Between-graph replication)。图内分布式中，计算图只有一个，需要一个中心节点分配计算任务并更新参数，由于中心节点的存在，中心节点容易成为瓶颈。图间分布式中，计算图有多个，但是不同计算图的相同变量通过tf.train.replica_device_setter函数放到同一个服务器上，这种情况下，各个计算图相互独立（参数只有一份，计算图有多个），并行度更高，适合异步更新，同步更新下相对麻烦，不过TF给了接口tf.train.SyncReplicasOptimizer函数来帮助实现参数的同步更新，所以图间分布式应用相对广泛一些。
关于数据并行，模型并行可以参考深度学习分布式训练实战（一)

大部分情况下，我们使用图间分布式，图内分布式一般只会在模型太大的情况下使用。对于图间分布式，其基于gRPC通信框架，模型参数只有一份，计算图有多份，一个master负责创建主session，多个worker执行计算图任务。模型训练过程中，每个计算图计算出各自梯度，然后对参数进行更新。更新方式有两种：同步更新，异步更新。

分布式TF中，TF需要建立一个集群，然后在集群中建立两个job，一个是ps job，负责参数初始化，参数更新，一个job下面可以有多个task（有多个task，说明有多台机器，或者GPU负责参数初始化，更新）。一个是woker job，负责计算图的运算，计算梯度，一个worker job下面也可以有很多个task（有多个task，说明有多台机器，或者GPU负责运行计算图）。

参数异步更新的分布式训练

参数同步更新基本上和这里写的差不多TensorFlow分布式部署
。只不过为了方便在本机上调试，所以改了一点点。（自己的笔记本没有GPU），介绍下面几个重点的语句：
tf.train.ClusterSpec()：创建一个集群对象
tf.train.Server()：在这个集群上面创建一个服务器，根据实际情况，可以是参数服务器，也可以是计算服务器
tf.train.Supervisor()：创建一个监视器，就是用来监控训练过程的，个人感觉主要就是方便恢复模型训练，其logdir参数为训练日志目录，如果里面有模型，则直接恢复训练。所以如果想重新训练，需要删除这个目录。
sv.managed_session()：启动Session，相比于其他启动Session的方式，多了一些功能。可以参考TensorFlow 中三种启动图用法

具体代码如下：

# tensorflow distribute train by asynchronously update 

import

最低0.47元/天解锁文章

小肥柴不是小废柴

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫