深度学习分布式训练实战（一）

最新推荐文章于 2024-06-20 20:25:23 发布

小肥柴不是小废柴

最新推荐文章于 2024-06-20 20:25:23 发布

阅读量1.2w

点赞数 11

分类专栏：深度学习文章标签：深度学习分布式训练 TF Pytorch

本文链接：https://blog.csdn.net/xs11222211/article/details/82931120

版权

本系列博客主要介绍使用Pytorch和TF进行分布式训练，本篇重点介绍相关理论，分析为什么要进行分布式训练。后续会从代码层面逐一介绍实际编程过程中如何实现分布式训练。

文章目录

常见的训练方式
为什么要使用分布式训练
Batch Size对训练的影响
分布式训练实现方式
多GPU训练的参数更新方式
总结

常见的训练方式

单机单卡（单GPU）

这种训练方式一般就是在自己笔记本上，穷学生专属。 : )
就是一台机器，上面一块GPU，最简单的训练方式。示例代码[2]：

#coding=utf-8
#单机单卡
#对于单机单卡，可以把参数和计算都定义再gpu上，不过如果参数模型比较大，显存不足等情况，就得放在cpu上
import  tensorflow as tf
 
with tf.device('/cpu:0'):#也可以放在gpu上
	w=tf.get_variable('w',(2,2),tf.float32,initializer=tf.constant_initializer(2))
	b=tf.get_variable('b',(2,2),tf.float32,initializer=tf.constant_initializer(5))
 
with tf.device