大规模神经网络最新综述

最新推荐文章于 2024-01-09 01:18:51 发布

Super齐

最新推荐文章于 2024-01-09 01:18:51 发布

阅读量353

点赞数

文章标签： python

本文链接：https://blog.csdn.net/weixin_45156147/article/details/124117400

版权

这篇综述探讨了如何在深度学习中有效地训练大规模神经网络，包括内存优化、并行训练策略和优化器设计。研究者分析了激活重新实现、卸载、模型并行、pipeline 并行和低精度优化器等技术，旨在提高计算效率并减少通信开销。论文还讨论了如何通过梯度压缩和大批量训练加速收敛。

摘要由CSDN通过智能技术生成

现代深度学习和人工智能技术的发展涉及使用深度神经网络（DNN）来解决图像、视频、音频、自然语言处理、图像形式的内容生成等各种问题，或生成给定格式主题的文本等任务。

俄罗斯斯科尔科沃科学技术研究所、法国里尔大学、波尔多大学、Inria 等科研机构联合发表了一篇论文《Survey on Large Scale Neural Network Training》，它试图解决的问题是：若给定模型和计算平台的情形下，如何训练才是最有效率的。为了使训练高效，其必须可行，最大程度地利用资源的计算能力，在并行情况下，它不能让信息传输成为瓶颈。训练的效率从根本上取决于计算内核在计算资源（CPU、TPU、GPU）上的有效实现以及 GPU 之间和不同内存之间通信的有效实现。（论文链接：https://arxiv.org/abs/2202.10435）

在这两种情况下，人们为优化计算内核的算术强度，及有效实现硬件网络上的通信做了很多工作。对于使用者来说，已存在强大的分析工具来识别硬件瓶颈，并可用于判定本调查中描述哪些策略可用于解决算术强度、内存和控制交换数据量的问题。

该综述研究涵盖了应对这些限制的通用技术。如果由于模型、优化器状态和激活不适合内存而无法先验执行计算，则可以使用内存交换计算（重新实现）或数据转移（激活和权重卸载）。我们还可以通过近似优化器状态和梯度（压缩、修剪、量化）来压缩内存使用。

并行方法（数据并行、模型并行、流水线模型并行）也可以将内存需求分布到多个算力资源上。如果计算的算力强度不足以充分利用 GPU 和 TPU，一般是因为 mini-batch 太小，那么上述技术也可以增加 mini-batch 的大小。最后，如果使用数据并行引起的通信开销昂贵到拖累计算速度，则可以使用其他形式的并行（模型并行、流水线模型并行），梯度压缩也可以限制数据交换的数量。

在本次调查中，研究者解释了这些不同技术是如何工作的，其中描述了评估和比较所提出方法的文献，还分析了一些实施这些技术的框架。

下表 1为文章讨论的不同技术及其对通信、内存和计算效率的影响。
在这里插入图片描述
研究者根据目的区分了以下方法：首先讨论减少 GPU 内存使用，随后考虑对不适合 GPU 的模型使用并行训练，最后讨论为训练存储在多个设备上的模型而开发的优化器的设计。