- 博客(325)
- 资源 (1)
- 收藏
- 关注
原创 新书出版:《分布式机器学习——系统、工程与实战》
当然,很多时候我们只有源码,那么就只能从源码中根据细节来探寻,重建论文作者的思路,提炼其精华,争取和作者达到一个跨越空间和时间的震荡和共鸣。其实我也没有很好的学习方法,可能因为我比较喜欢钻研技术,如果某一个技术点没有想明白,我就会围绕这个点进行深入挖掘,而往往为了弄明白一个知识点,就会研究其他相关知识点,这样从一个点很容易延申到一条线,进而扩展到一个面,最后形成一张网,就构建了自己的一个小小的知识体系。
2023-07-21 23:56:05 476
原创 [源码解析] TensorFlow 分布式之 MirroredStrategy 分发计算
前一篇我们分析了MirroredStrategy 的基本架构和如何更新变量,本文我们来看看 MirroredStrategy 如何运行。具体希望了解的是,MirroredStrategy 通过什么方式在远端设备节点上运行训练方法(如何分发计算),MirroredStrategy 和我们之前分析的 TF 运行时怎么联系起来?和 master,worker 这些概念怎么联系起来?
2022-04-26 08:05:14 419
原创 [源码解析] TensorFlow 之 分布式变量
在 TensorFlow 之中,分布式变量是在多个设备上创建的变量。Mirrored variable 和 SyncOnRead variable 是两个例子。本文就对分布式变量进行分析。
2022-04-14 17:48:47 560
原创 [源码解析] NVIDIA HugeCTR,GPU 版本参数服务器---(7) ---Distributed Hash之前向传播
在这系列文章中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。
2022-02-28 16:45:19 559
原创 [源码解析] 模型并行分布式训练 Megatron (4) --- 如何设置各种并行
NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。
2022-02-10 18:44:15 2502
原创 [源码分析] Facebook如何训练超大模型 --- (2)
FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,目标是训练超大规模模型。前文我们介绍了 FSDP 如何使用,本文从源码角度来介绍 FSDP 如何实现参数分区。
2022-01-19 19:55:20 1170
原创 [源码解析] TensorFlow 分布式之 ClusterCoordinator
本文我们主要来看看ParameterServerStrategy如何分发计算,也就是ClusterCoordinator如何运作。这是TF分布式的最后一篇。
2022-05-21 11:48:57 555
原创 [源码解析] TensorFlow 分布式之 ParameterServerStrategy V2
对于 ParameterServerStrategy V2,我们将从几个方面来研究:如何与集群建立连接,如何生成变量,如何获取数据,如何运行。其中,变量和作用域我们在前文已经研究过,运行在 MirroredStrategy 里面也介绍,所以本文主要看看如何使用,如何初始化。在下一篇之中会重点看看如何分发计算。
2022-05-14 08:12:08 575
原创 [源码解析] TensorFlow 分布式之 ParameterServerStrategy V1
本文我们看看 ParameterServerStrategy,就是第一版代码。研究这个是因为目前工业界还有很多公司在使用,而且其内部机制也比较清晰易懂,值得我们分析。
2022-05-08 09:16:52 479
原创 [源码解析] TensorFlow 分布式之 MirroredStrategy
MirroredStrategy 策略通常用于在一台机器上用多个GPU进行训练。其主要难点就是:如何更新 Mirrored 变量?如何分发计算?本文我们看看其总体思路和如何更新变量。
2022-04-19 18:40:00 483
原创 [源码解析] TensorFlow 分布式 DistributedStrategy 之基础篇
我们接下来介绍TensorFlow分布式Strategy的基础,本文会先看看Strategy的类体系和如何处理数据,下一篇看看如何处理变量。
2022-04-12 14:23:15 471
原创 [翻译] 使用 TensorFlow 进行分布式训练
本文以两篇官方文档为基础来学习TensorFlow如何进行分布式训练,借此进入Strategy世界。
2022-04-10 09:51:28 477
原创 [源码解析] TensorFlow 分布式环境(8) --- 通信机制
在 TF 分布式模式之中,Send/Recv 通过 RpcRemoteRendezvous 完成数据交换,所以我们本文来看看 TF 之中的数据交换机制 Rendezvous。
2022-04-06 15:55:49 486
原创 [源码解析] TensorFlow 分布式环境(7) --- Worker 动态逻辑
前文中,Master 在流程之中先后调用了 gRPC 给远端 worker 发送命令,即,GrpcRemoteWorker 一共发了两个请求:RegisterGraphAsync,RunGraphAsync,本文我们就来看看 GrpcWorkerService 如何处理。
2022-04-01 16:51:42 2898
原创 [源码解析] TensorFlow 分布式环境(6) --- Master 动态逻辑
在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。本文会从 Client 开始,看看 Master 如何对计算图进行处理。
2022-03-29 16:36:03 397
原创 [源码解析] TensorFlow 分布式环境(5) --- Session
在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。会话机制是TensorFlow 分布式运行时的核心,我们接下来按照从 Client 到 worker 的流程,把 Session 机制从前到后走一遍。
2022-03-28 19:50:49 401
原创 [源码解析] TensorFlow 分布式环境(4) --- WorkerCache
在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。我们接下来介绍缓存机制。
2022-03-23 19:43:51 1672
原创 [源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑
在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。本篇介绍 Worker(一系列相关概念) 的静态架构。
2022-03-21 19:32:33 2057
原创 [源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑
在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。本文梳理下 Master 的静态逻辑。
2022-03-19 14:58:16 1256
原创 [源码解析] TensorFlow 分布式环境(1) --- 总体架构
在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。
2022-03-16 19:35:34 4737
原创 [翻译] TensorFlow 分布式之论文篇 “Implementation of Control Flow in TensorFlow“
读论文有一种原则是:本领域最经典的论文,近5年最热的论文,近1年最新的论文。按照这个原则,本文主要介绍一篇Tensorflow 经典论文 [Implementation of Control Flow in TensorFlow]。
2022-03-15 17:30:27 2154
原创 [翻译] TensorFlow 分布式之论文篇 “TensorFlow : Large-Scale Machine Learning on Heterogeneous Distributed Syst
本文主要介绍一篇 TensorFlow 经典论文[ TensorFlow : Large-Scale Machine Learning on Heterogeneous Distributed Systems](http://download.TensorFlow .org/paper/whitepaper2015.pdf)。大家如果读了下面论文就会发现 TensorFlow分布式的博大精深。
2022-03-12 09:33:48 1118
原创 [翻译] NVIDIA HugeCTR,GPU 版本参数服务器 --(10)--- 推理架构
经过9篇文章之后,我们基本把 HugeCTR 的训练过程梳理了以下,现在我们有必要看看HugeCTR如何进行推理,这样可以让我们从整体上有一个更好的把握。而且我们之前都是分析分布式训练,此处恰好可以看看分布式推理。
2022-03-10 17:26:41 2413
原创 [源码解析] NVIDIA HugeCTR,GPU 版本参数服务器 --(9)--- Local hash表
在这个系列中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。本文介绍 LocalizedSlotSparseEmbeddingHash 的后向操作。
2022-03-09 20:11:27 330
原创 [源码解析] NVIDIA HugeCTR,GPU 版本参数服务器---(8) ---Distributed Hash之后向传播
在这个系列中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。本文介绍 DistributedSlotSparseEmbeddingHash 的后向操作。
2022-03-04 17:34:47 881
原创 [源码解析] NVIDIA HugeCTR,GPU版本参数服务器--- (6) --- Distributed hash表
在这篇文章中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。
2022-02-23 17:43:53 333
原创 [源码解析] NVIDIA HugeCTR,GPU版本参数服务器--- (5) 嵌入式hash表
在这篇文章中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。
2022-02-22 18:02:57 830
原创 [源码解析] NVIDIA HugeCTR,GPU版本参数服务器--- (4)
在这个系列中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。
2022-02-21 19:37:38 396
原创 [源码解析] NVIDIA HugeCTR,GPU版本参数服务器---(3)
在本系列中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。
2022-02-17 17:42:47 917
原创 [源码解析] NVIDIA HugeCTR,GPU版本参数服务器--- (2)
在这篇文章中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。
2022-02-16 20:07:26 1235 2
原创 [源码解析] NVIDIA HugeCTR,GPU版本参数服务器 --(1)
本系列之中我们将会介绍 NVIDIA 出品的 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。
2022-02-15 19:32:08 1412 3
原创 [源码解析] 模型并行分布式训练Megatron (5) --Pipedream Flush
NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。本系列有 5 篇文章,通过论文和源码和大家一起学习研究。本文将看看 Megatron 如何给流水线各个阶段安排执行执行序列。
2022-02-14 17:35:22 890
原创 [源码解析] 模型并行分布式训练 Megatron (3) ---模型并行实现
NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。
2022-02-08 16:38:33 2083 6
原创 [源码解析] 模型并行分布式训练Megatron (2) --- 整体架构
NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。
2022-02-07 20:19:04 2254
原创 [源码解析] 模型并行分布式训练Megatron (1) --- 论文 & 基础
NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。
2022-01-27 18:53:27 6330
原创 [源码分析] Facebook如何训练超大模型--- (5)
之前文章之中我们谈到了FSDP支持混合精度训练,本篇来看看 Activation recomputation。
2022-01-26 08:48:21 435
原创 [源码分析] Facebook如何训练超大模型 --- (4)
FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,目标是训练超大规模模型,之前文章之中我们谈到了FSDP支持混合精度训练,所以我们再来看看相关知识。
2022-01-24 18:53:14 2419
原创 [源码分析] Facebook如何训练超大模型 --- (3)
FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,目标是训练超大规模模型,本文从源码角度来介绍 FSDP 如何实现offload。
2022-01-21 14:38:18 3148
原创 [源码分析] Facebook如何训练超大模型---(1)
FSDP(Fully Sharded Data Parallel)是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,其本质是 parameter sharding。Parameter sharding 就是把模型参数等切分到各个GPU之上。我们会以 Google,微软和 Facebook 的论文,博客以及代码来进行学习分析。
2022-01-17 19:48:44 1407 1
原创 [宋史学习] 对西夏战争中暴露出的积弱形势 & 范仲淹
摘录“三川口之战”,。“好水川之战”,“定川寨之役” 三次重大战役的失败。宋与西夏的战争,宋军若以小部队出击或守城,则常能获胜或成功抵御西夏军的攻击。而三次重大的战役,都是属于野战性质,西夏集中了几倍甚至十多倍于宋军的兵力,围攻没有城寨作防御设施,或是被迫处于缺乏水源的小城寨中的宋军。宋军在前两次战役中,由于主将的轻敌,虽经激烈战斗,仍以重大伤亡而战败;第三次战役则除了主将指挥失当外,更由于宋军士兵怯敌拒战而失败。宋廷的积弱现象在对西夏的战争中暴露无遗。宋朝长期忽视军备,士兵得不到正规而有效的训练,加之
2022-01-15 12:10:21 263
Word2vec-OpenSourceReading-master.zip
2020-07-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人