【Python】科研代码学习：十三 Accelerate

溢流眼泪

于 2024-03-14 20:51:04 发布

阅读量659

点赞数 12

分类专栏：【科研代码】文章标签： python 学习开发语言

本文链接：https://blog.csdn.net/weixin_45775438/article/details/136720185

版权

【科研代码】专栏收录该内容

20 篇文章 2 订阅

订阅专栏

【Python】科研代码学习：十三 Accelerate

Accelerate

Accelerate

【HF官网-Doc-Accelerate：API】
HF Accelerate 是一个库，能够让 PyTorch 代码添加几行代码之后，就能在分布式配置中运行（比如多Gpus卡）
前言：建议 Python3.8+
pip install accelerate

统一的加速接口

对任意给定的训练框架 deepspeed / FSDP 等，都提供了一个统一的加速接口。
首先可以执行如下命令，它会在 Accelerates 缓存文件夹中，创建一个 default_config.yaml 文件。它存储训练环境的配置。

accelerate config

在配置好环境后，可以使用 accelerate test 来测试分布式环境。
然后就可以调用如下命令，加速代码了

accelerate launch path_to_script.py --args_for_the_script

修改训练代码 (torch.nn)

我们在代码中需要少数代码的修改
主要是实例化一个 accelerator 加速器，修改 device，对 model, optimizer, dataloader, scheduler 做一个处理，还有反向传播。
注意看下面删除的两行和增加的其他行。

+ from accelerate import Accelerator
+ accelerator = Accelerator()

+ device = accelerator.device
+ model, optimizer, training_dataloader, scheduler = accelerator.prepare(
+     model, optimizer, training_dataloader, scheduler
+ )

  for batch in training_dataloader:
      optimizer.zero_grad()
      inputs, targets = batch
-     inputs = inputs.to(device)
-     targets = targets.to(device)
      outputs = model(inputs)
      loss = loss_function(outputs, targets)
+     accelerator.backward(loss)
      optimizer.step()
      scheduler.step()

更简单的使用

(从学长那里听来的)
貌似加速库很麻烦，要改很多代码，比如如何制定哪几张卡作为 Trainer 训练呢？
我们只要使用 deepspeed + Accelerate，这两个工具即可
首先，这两个环境都安装一下
然后，在 .sh 文件中，直接增加环境变量
注意，CUDA_DEVICE_ORDER 这里不能加双引号；右侧可加可不加；等号左右不能有空格

export CUDA_DEVICE_ORDER="PCI_BUS_ID"
export CUDA_VISIBLE_DEVICES="1,2"

然后直接

accelerate launch --config_file configs/deepspeed_train_config.yaml\
	run_python_code.py

即可，里面的代码就无需修改了。

溢流眼泪

关注

12
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
【Python】科研代码学习：十三 Accelerate

即可，里面的代码就无需修改了。
复制链接

扫一扫

专栏目录

【Python】科研代码学习：十三 Accelerate

【Python】科研代码学习：十三 Accelerate

Accelerate

统一的加速接口

修改训练代码 (torch.nn)

更简单的使用

“相关推荐”对你有帮助么？