Pytorch固定随机种子&&复现模型

ytusdc

已于 2022-06-30 22:47:05 修改

阅读量9.6k

点赞数 17

分类专栏： Deep Learning 文章标签：大数据

于 2022-06-30 00:08:52 首次发布

本文链接：https://blog.csdn.net/ytusdc/article/details/125529881

版权

Deep Learning 专栏收录该内容

33 篇文章 9 订阅

订阅专栏

官网 Reproducibility — PyTorch 1.11.0 documentation

在神经网络中，参数默认是进行随机初始化的。不同的初始化参数往往会导致模型的训练结果会存在一定的差异。当得到比较好的结果时我们通常希望这个结果是可以复现的，就需要保证每一次初始化的参数都不变，这就引入了随机种子。在PyTorch中，通过设置全局随机数种子可以实现这个目的。本文总结了PyTorch中固定随机种子的方法。

一训练过程的不确定性

在训练过程中，若相同的数据数据集，相同的训练集、测试集划分方式，相同的权重初始化，但是每次训练结果不同，可能有以下几个原因：

PyTorch、Python、Numpy中的随机种子没有固定；
cuDNN中大量nondeterministic的算法
dataloader多个num_workers带来的随机性
向上采样和插值函数/类的向后是不确定的(PyTorch的问题)
Dropout的存在(模型设计本身的问题)

例如，数据预处理、增强方式采用了概率，若没有设置固定的随机种子，结果可能不同。例如常用数据增强库albumentations就采用了Python的随机产生器；训练数据集被随机打乱了顺序，也可能用到 PyTorch、Python、Numpy 中的 shuffle，如果随机种子不固定，那么每次打乱顺序也不一样，导致最终结果不能复现。

当向上采样和插值函数/类的向后是不确定的(BACKWARD of upsampling and interpolation functionals/classes is non-deterministic)。这意味着，如果你在训练图中使用这样的模块，无论你做什么，都永远不会得到确定性的结果。torch.nn.ConvTranspose2d函数是不确定的，除非你使用torch.backends.cudnn.deterministic = True (原文中说you can try to make the operation deterministic … by setting torch.backends.cudnn.deterministic = True，所以这样做是否能够得到正确结果也是待定的)。

另外，在Pytorch官方文档中说明了在Pytorch的不同提交、不同版本和不同平台上，不能保证完全可重现的结果。此外，即使使用相同的种子，因为存在不同的CPU和GPU，结果也不能重现。

但是对于一个特定的平台和PyTorch发行版上对您的特定问题进行确定性的计算，需要采取几个步骤。

can’t reproduce results even set all random seeds说明了两种解决方式：

can’t reproduce results even set all random seeds#7068 (comment1)建议采用下面方式解决：

在运行任何程序之前写入下面代码（可以放在主代码的开头）

def seed_torch(seed=1029):
	random.seed(seed)
	os.environ['PYTHONHASHSEED'] = str(seed) # 为了禁止hash随机化，使得实验可复现
	np.random.seed(seed)
	torch.manual_seed(seed)
	torch.cuda.manual_seed(seed)
	torch.cuda.manual_seed_all(seed) # if you are using multi-GPU.
	torch.backends.cudnn.benchmark = False
	torch.backends.cudnn.deterministic = True
    #torch.use_deterministic_algorithms(True)  # 有检查操作，看下文区别

seed_torch()

二固定随机种子

1、Python & NumPy

seed为0的时候表示不用这个feature，也可以设置为整数，多以最好不要把seed设置为0

如果读取数据的过程采用了随机预处理(如RandomCrop、RandomHorizontalFlip等)，那么对python、numpy的随机数生成器也需要设置种子。

import os
import random
import numpy as np
seed = 1024
random.seed(seed)     # python的随机性
np.random.seed(seed)  # np的随机性
os.environ['PYTHONHASHSEED'] = str(seed) # 设置python哈希种子，为了禁止hash随机化

environ是一个字符串所对应环境的映像对象，这里主要是为了设置python哈希种子，禁止hash随机化，使得实验可复现。解释：python里面有很多使用哈希算法完成的操作，例如对于一个数字的列表，使用set()来去重。大家应该经历过，得到的结果中，顺序可能不一样，例如(1,2,3)(3,2,1)。

有时候在脚本代码中才固定 PYTHONHASHSEED 会太晚，因此需要在终端就把这个固定执行

PYTHONHASHSEED=123 python3 train.py

2、PyTorch

seed = 1024
torch.manual_seed(seed)            # torch的CPU随机性，为CPU设置随机种子
torch.cuda.manual_seed(seed)       # torch的GPU随机性，为当前GPU设置随机种子
torch.cuda.manual_seed_all(seed)   # torch的GPU随机性，为所有GPU设置随机种子

3、dataloader

fastiai中用augmentation时，由于多线程的data loading，会带来随机性。

When you use threads for data loading, the augmentation for each image is done inside different threads. So, even if you have set a random seed before, threads (since they share resources) will update the state of the random and share this state as they perform augmentations.

对pytorch而言，DataLoader will reseed workers following Randomness in multi-process data loading algorithm（torch.utils.data — PyTorch 1.12 documentation）. Use worker_init_fn() and generator to preserve reproducibility
有人pytorch不能复现，加gradient clipping后可以复现了

如果dataloader采用了多线程(num_workers > 1), 那么由于读取数据的顺序不同，最终运行结果也会有差异。也就是说，改变num_workers参数，也会对实验结果产生影响。目前暂时没有发现解决这个问题的方法，但是只要固定num_workers数目(线程数)不变，基本上也能够重复实验结果。

在PyTorch的DataLoader函数中为不同的work设置初始化函数，确保您的dataloader在每次调用时都以相同的顺序加载样本（随机种子固定时）。如果进行裁剪或其他预处理步骤，请确保它们是确定性的。

对于不同线程的随机数种子设置，主要通过DataLoader的worker_init_fn参数来实现。默认情况下使用线程ID作为随机数种子。

# 设置每个读取线程的随机种子
def _init_fn(worker_id):
    np.random.seed(int(seed)+worker_id)

trainloader = DataLoader(trainset, batch_size=batch_size, shuffle=True, num_workers=num_workers, pin_memory=True, worker_init_fn=_init_fn)

4、CUDNN

cudnn中对卷积操作进行了优化，牺牲了精度来换取计算效率。如果需要保证可重复性，可以使用如下设置:

GPU算法的不确定来源有两个

CUDA convolution benchmarking（基准测试）
nondeterministic algorithms

1、CUDA convolution benchmarking => torch.backends.cudnn.benchmark

CUDA convolution benchmarking 是为了提升运行效率，对模型参数试运行后，选取最优实现。

CUDA卷积操作使用的cuDNN库可能是跨应用程序多次执行的不确定性的来源。当使用一组新的尺寸参数调用cuDNN卷积时，一个可选的特性可以运行多个卷积算法，对它们进行基准测试以找到最快的一个。然后，在剩下的过程中，对于相应的尺寸参数集，将一致地使用最快的算法。

适用场景是网络结构固定（不是动态变化的），网络的输入形状（包括 batch size，图片大小，输入的通道）是不变的。反之，如果卷积层的设置一直变化，会导致 cnDNN 每次都会去寻找一遍最优配置，这样反而会降低运行效率。

由于benchmarking本身存在噪音和不同的硬件，即使是在同一台机器上benchmarking可能会在后续的运行中选择不同的算法，导致不确定性

torch.backends.cudnn.benchmark=True ：cuDNN使用非确定性算法寻找最高效算法。将会让程序在开始时花费一点额外时间，为整个网络的每个卷积层搜索最适合它的卷积实现算法，进而实现网络的加速、增加运行效率。

torch.backends.cudnn.benchmark = False ：禁用基准功能会导致 cuDNN 确定性地选择算法，可能以降低性能为代价。 #保证gpu每次都选择相同的算法，但是不保证该算法是deterministic的。

2、nondeterministic algorithms => torch.backends.cudnn.deterministic

GPU最大优势就是并行计算，如果能够忽略顺序，就避免了同步要求，能够大大提升运行效率，所以很多算法都有非确定性结果的算法实现。虽然禁用CUDA卷积基准（benchmarking ），确保每次运行时CUDA选择相同的算法应用程序,但算法本身可能是不确定的。通过设置deterministic就可以使得pytorch选择确定性算法。

torch.backends.cudnn.deterministic = True ：每次返回的卷积算法将是确定的，即默认算法。如果配合上设置 Torch 的随机种子为固定值的话，应该可以保证每次运行网络的时候相同输入的输出是固定的。

torch.use_deterministic_algorithms(true) 和 torch.backends.cudnn.deterministic = True 区别：

torch.backends.cudnn.deterministic = True , 只设置控制选择确定性这种行为，而

torch.use_deterministic_algorithms(true) 允许配置PyTorch，将使其他PyTorch操作的行为具有确定性，在可用的情况下使用确定性算法，而不是非确定性算法，如果操作已知为非确定性算法（且没有确定性替代方案），则会抛出错误。

torch.backends.cudnn.benchmark = False   # if benchmark=True, deterministic will be False
torch.backends.cudnn.deterministic = True # 选择确定性算法

# 或者

torch.backends.cudnn.benchmark=False  # 不需要benchmarking， False会确定性地选择算法，会降低性能
torch.use_deterministic_algorithms(True)  # 选择确定性算法

警告：不过实际上这个设置对精度影响不大，影响精度在小数点后几位。所以如果不是对精度要求极高，其实不太建议修改，因为会使计算效率降低。确定性模式可能会对性能产生影响，具体取决于您的型号。