pytorch 服务器加速训练

问题:已经在服务器上训练了,但是训练的速度仍然很慢。

我在服务器上可以将batch变得很大,比如96/128,但是在训练的时候很慢,每秒只处理20张左右的图片(20 it/s),而这个在我自己的电脑上也可以达到(但是在我自己的电脑上,batch最多设置成8)。
pytorch中的batch更对应显卡的显存,一批次计算多少数据,尤其是在bn层,大的batch_size的bn层参数更贴近真实数据集的参数。
还有另外一个非常重要的参数容易被忽略,这个参数就是加载数据的DataLoader()函数中的num_workers,该参数根据函数说明,是读取数据所启动的子线程数,越大数据的读取速度越快,比如你设置为8,你在终端中使用top命令 (linun中)查看,便可以看到启动了多个python线程,这个时候,训练速度变成了近150 it/s了。

总结,要想训练的又快又好,就把batch_size和num_workers设置为大的值(num_workers默认为0)。

### 租赁云服务器用于PyTorch深度学习模型训练 对于希望利用云计算资源来加速机器学习项目的研究人员和开发者来说,选择合适的云服务提供商至关重要。当前市场上有多个主流的服务平台可供选择,如Amazon Web Services (AWS),Google Cloud Platform (GCP),Microsoft Azure等。 #### AWS EC2实例设置 当考虑使用AWS作为托管环境时,可以按照如下方式创建适合运行PyTorch的工作站: - 登录到[AWS管理控制台](https://aws.amazon.com/console/)并导航至EC2仪表板。 - 单击“启动实例”,选择支持GPU的AMI镜像(例如NVIDIA GPU优化型Linux AMI),这有助于更高效地执行基于CUDA的计算任务[^3]。 - 配置实例详情,包括选择具有适当数量vCPU核心数及内存大小的实例类型;对于深度学习应用而言,建议选用P系列或G系列实例以获得更好的性能表现。 - 设置存储空间和其他选项后继续完成向导直至成功部署新虚拟机。 #### GCP VM实例配置 如果倾向于采用谷歌提供的解决方案,则可以通过以下流程建立相应的开发环境: - 访问[GCP Console](https://console.cloud.google.com/)并登录账户。 - 进入Compute Engine下的VM instances页面点击Create Instance按钮。 - 在Image or snapshot字段中挑选预装了Deep Learning框架(含PyTorch)的一键式映像模板。 - 根据需求调整硬件规格参数,并确保启用了必要的API访问权限以便后续操作顺利进行。 #### Microsoft Azure 虚拟机准备 针对Azure用户群体,在此提供简要指南帮助其快速搭建起适用于DL/ML工作的基础设施架构: - 打开浏览器前往[Azure Portal](https://portal.azure.com/#home)主页并注册账号。 - 利用Marketplace查找含有预先配置好的Anaconda发行版及其他科学计算工具集在内的Data Science Virtual Machine(Dsvm)产品。 - 自定义选购计划内的各项属性设定之后提交订单等待审核通过即可立即投入使用。 一旦选定具体方案并完成了初步构建工作,下一步就是安装所需的依赖项与库文件。考虑到目标是在云端环境中开展涉及PyTorch的应用程序开发活动,因此除了基础操作系统外还需要额外加载一些特定组件。这部分可通过命令行工具轻松实现自动化处理过程,比如借助`%pip install torchserve torch-model-archiver torch-workflow-archiver captum timm`这样的语句一次性获取全部必需品[^1]。 最后提醒一点,由于大多数情况下都需要多次迭代才能得到满意的实验成果,所以务必记得定期保存进度副本以防意外丢失重要资料[^2]。 ```bash !mkdir model_store ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值