Tensorflow cpu分布式原理和运行示例

最新推荐文章于 2022-05-04 23:11:02 发布

未竟

最新推荐文章于 2022-05-04 23:11:02 发布

阅读量1.8k

点赞数 1

分类专栏：机器学习文章标签： tensorflow lstm 手写识别 cpu 分布式

本文链接：https://blog.csdn.net/zwahut/article/details/90637793

版权

1、TF分布式原理

TF的实现分为了单机实现和分布式实现，在分布式实现中，需要实现的是对client，master，worker process不在同一台机器上时的支持。数据量很大的情况下，单机跑深度学习程序，过于耗时，所以需要TensorFlow分布式并行。

2、TF分布式模式

In-graph 模式

将模型的计算图的不同部分放在不同的机器上执行。

在大数据训练的情况下，不推荐使用这种模式。

Between-graph 模式

数据并行，每台机器使用完全相同的计算图。

这种模式的优点是不用训练数据的分发了，尤其是在数据量在TB级的时候，节省了大量的时间，所以大数据深度学习还是推荐使用Between-graph模式。

3、同步更新和异步更新

in-graph模式和between-graph模式都支持同步和异步更新。

在数据量小的情况下，各个节点的计算能力比较均衡的情况下，推荐使用同步模式；数据量很大，各个机器的计算性能参差不齐的情况下，推荐使用异步的方式。

4、Single-Device Execution

构建好图后，使用拓扑算法来决定执行哪一个节点，即对每个节点使用一个计数，值表示所依赖的未完成的节点数目，当一个节点的运算完成时，将依赖该节点的所有节点的计数减一。如果节点的计数为0，将其放入准备队列待执行。

5、单机多GPU训练

单机多GPU的训练过程：

假设你的机器上有3个GPU;
在单机单GPU的训练中，数据是一个batch一个batch的训练。在单机多GPU中，数据一次处理3个batch(假设是3个GPU训练），每个GPU处理一个batch的数据计算。
变量，或者说参数，保存在CPU上
刚开始的时候数据由CPU分发给3个GPU，在GPU上完成了计算，得到每个batch要更新的梯度。
然后在CPU上收集完了3个GPU上的要更新的梯度，计算一下平均梯度，然后更新参数。
然后继续循环这个过程。

通过这个过程，处理的速度取决于最慢的那个GPU的速度。如果3个GPU的处理速度差不多的话，处理速度就相当于单机单GPU的速度的3倍减去数据在CPU和GPU之间传输的开销，实际的效率提升看CPU和GPU之间数据的速度和处理数据的大小。

6、Multi-Device Execution

当系统到了分布式情况下时，事情就变得复杂了很多，还好前述调度用了现有的框架。那么对于TF来说，剩下的事情就是：

决定运算在哪个设备上运行管理设备之间的数据传递

7、分布式多机多GPU训练

随着设计的模型越来越复杂，模型参数越来越多，越来越大，大到什么程度？多到什么程度？多参数的个数上百亿个，训练的数据多到按TB级别来衡量。大家知道每次计算一轮，都要计算梯度，更新参数。当参数的量级上升到百亿量级甚至更大之后，参数的更新的性能都是问题。如果是单机16个GPU，一个step最多也是处理16个batch，这对于上TB级别的数据来说，不知道要训练到什么时候。于是就有了分布式的深度学习训练方法，或者说框架。

8、参数服务器

在介绍tensorflow的分布式训练之前，先说下参数服务器的概念。前面说道，当你的模型越来越大，模型的参数越来越多，多到模型参数的更新，一台机器的性能都不够的时候，很自然的我们就会想到把参数分开放到不同的机器去存储和更新。因为碰到上面提到的那些问题，所有参数服务器就被单独拧出来，于是就有了参数服务器的概念。参数服务器可以是多台机器组成的集群，这个就有点类似分布式的存储架构了，涉及到数据的同步，一致性等等，一般是key-value的形式，可以理解为一个分布式的key-value内存数据库，然后再加上一些参数更新的操作。详细的细节可以去google一下，这里就不详细说了。反正就是当性能不够的时候，几百亿的参数分散到不同的机器上去保存和更新，解决参数存储和更新的性能问题。借用上面的小明算题的例子，小明觉得自己算加法都算不过来了，于是就叫了10个小明过来一起帮忙算。

9、gRPC (google remote procedure call)

TensorFlow分布式并行基于gRPC通信框架，其中包括一个master创建Session，还有多个worker负责执行计算图中的任务。

gRPC首先是一个RPC，即远程过程调用,通俗的解释是：假设你在本机上执行一段代码num=add(a,b)，它调用了一个过程 call，然后返回了一个值num，你感觉这段代码只是在本机上执行的, 但实际情况是,本机上的add方法是将参数打包发送给服务器,然后服务器运行服务器端的add方法,返回的结果再将数据打包返回给客户端.