罗西的思考-CSDN博客

原创新书出版：《分布式机器学习——系统、工程与实战》

当然，很多时候我们只有源码，那么就只能从源码中根据细节来探寻，重建论文作者的思路，提炼其精华，争取和作者达到一个跨越空间和时间的震荡和共鸣。其实我也没有很好的学习方法，可能因为我比较喜欢钻研技术，如果某一个技术点没有想明白，我就会围绕这个点进行深入挖掘，而往往为了弄明白一个知识点，就会研究其他相关知识点，这样从一个点很容易延申到一条线，进而扩展到一个面，最后形成一张网，就构建了自己的一个小小的知识体系。

2023-07-21 23:56:05 297

原创 [源码解析] TensorFlow 分布式之 MirroredStrategy 分发计算

前一篇我们分析了MirroredStrategy 的基本架构和如何更新变量，本文我们来看看 MirroredStrategy 如何运行。具体希望了解的是，MirroredStrategy 通过什么方式在远端设备节点上运行训练方法（如何分发计算），MirroredStrategy 和我们之前分析的 TF 运行时怎么联系起来？和 master，worker 这些概念怎么联系起来？

2022-04-26 08:05:14 368

原创 [源码解析] TensorFlow 之分布式变量

在 TensorFlow 之中，分布式变量是在多个设备上创建的变量。Mirrored variable 和 SyncOnRead variable 是两个例子。本文就对分布式变量进行分析。

2022-04-14 17:48:47 508

原创 [源码解析] NVIDIA HugeCTR，GPU 版本参数服务器---(7) ---Distributed Hash之前向传播

在这系列文章中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

2022-02-28 16:45:19 520

原创 [源码解析] 模型并行分布式训练 Megatron (4) --- 如何设置各种并行

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3，值得我们深入分析其背后机理。

2022-02-10 18:44:15 2024

原创 [源码分析] Facebook如何训练超大模型 --- (2)

FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本，可以认为是对标微软 ZeRO，目标是训练超大规模模型。前文我们介绍了 FSDP 如何使用，本文从源码角度来介绍 FSDP 如何实现参数分区。

2022-01-19 19:55:20 1101

原创 [源码解析] TensorFlow 分布式之 ClusterCoordinator

本文我们主要来看看ParameterServerStrategy如何分发计算，也就是ClusterCoordinator如何运作。这是TF分布式的最后一篇。

2022-05-21 11:48:57 500

原创 [源码解析] TensorFlow 分布式之 ParameterServerStrategy V2

对于 ParameterServerStrategy V2，我们将从几个方面来研究：如何与集群建立连接，如何生成变量，如何获取数据，如何运行。其中，变量和作用域我们在前文已经研究过，运行在 MirroredStrategy 里面也介绍，所以本文主要看看如何使用，如何初始化。在下一篇之中会重点看看如何分发计算。

2022-05-14 08:12:08 500

原创 [源码解析] TensorFlow 分布式之 ParameterServerStrategy V1

本文我们看看 ParameterServerStrategy，就是第一版代码。研究这个是因为目前工业界还有很多公司在使用，而且其内部机制也比较清晰易懂，值得我们分析。

2022-05-08 09:16:52 425

原创 [源码解析] TensorFlow 分布式之 MirroredStrategy

MirroredStrategy 策略通常用于在一台机器上用多个GPU进行训练。其主要难点就是：如何更新 Mirrored 变量？如何分发计算？本文我们看看其总体思路和如何更新变量。

2022-04-19 18:40:00 433

原创 [源码解析] TensorFlow 分布式 DistributedStrategy 之基础篇

我们接下来介绍TensorFlow分布式Strategy的基础，本文会先看看Strategy的类体系和如何处理数据，下一篇看看如何处理变量。

2022-04-12 14:23:15 430

原创 [翻译] 使用 TensorFlow 进行分布式训练

本文以两篇官方文档为基础来学习TensorFlow如何进行分布式训练，借此进入Strategy世界。

2022-04-10 09:51:28 427

原创 [源码解析] TensorFlow 分布式环境(8) --- 通信机制

在 TF 分布式模式之中，Send/Recv 通过 RpcRemoteRendezvous 完成数据交换，所以我们本文来看看 TF 之中的数据交换机制 Rendezvous。

2022-04-06 15:55:49 382

原创 [源码解析] TensorFlow 分布式环境(7) --- Worker 动态逻辑

前文中，Master 在流程之中先后调用了 gRPC 给远端 worker 发送命令，即，GrpcRemoteWorker 一共发了两个请求：RegisterGraphAsync，RunGraphAsync，本文我们就来看看 GrpcWorkerService 如何处理。

2022-04-01 16:51:42 2855

原创 [源码解析] TensorFlow 分布式环境(6) --- Master 动态逻辑

在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。本文会从 Client 开始，看看 Master 如何对计算图进行处理。

2022-03-29 16:36:03 368

原创 [源码解析] TensorFlow 分布式环境(5) --- Session

在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。会话机制是TensorFlow 分布式运行时的核心，我们接下来按照从 Client 到 worker 的流程，把 Session 机制从前到后走一遍。

2022-03-28 19:50:49 361

原创 [源码解析] TensorFlow 分布式环境(4) --- WorkerCache

在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。我们接下来介绍缓存机制。

2022-03-23 19:43:51 1643

原创 [源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑

在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。本篇介绍 Worker（一系列相关概念）的静态架构。

2022-03-21 19:32:33 2017

原创 [源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑

在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。本文梳理下 Master 的静态逻辑。

2022-03-19 14:58:16 1183

原创 [源码解析] TensorFlow 分布式环境(1) --- 总体架构

在具体介绍 TensorFlow 分布式的各种 Strategy 之前，我们首先需要看看分布式的基础：分布式环境。只有把基础打扎实了，才能在以后的分析工作之中最大程度的扫清障碍，事半功倍。

2022-03-16 19:35:34 4673

原创 [翻译] TensorFlow 分布式之论文篇 “Implementation of Control Flow in TensorFlow“

读论文有一种原则是：本领域最经典的论文，近5年最热的论文，近1年最新的论文。按照这个原则，本文主要介绍一篇Tensorflow 经典论文 [Implementation of Control Flow in TensorFlow]。

2022-03-15 17:30:27 2107

原创 [翻译] TensorFlow 分布式之论文篇 “TensorFlow : Large-Scale Machine Learning on Heterogeneous Distributed Syst

本文主要介绍一篇 TensorFlow 经典论文[ TensorFlow : Large-Scale Machine Learning on Heterogeneous Distributed Systems](http://download.TensorFlow .org/paper/whitepaper2015.pdf)。大家如果读了下面论文就会发现 TensorFlow分布式的博大精深。

2022-03-12 09:33:48 996

原创 [翻译] NVIDIA HugeCTR，GPU 版本参数服务器 --(10)--- 推理架构

经过9篇文章之后，我们基本把 HugeCTR 的训练过程梳理了以下，现在我们有必要看看HugeCTR如何进行推理，这样可以让我们从整体上有一个更好的把握。而且我们之前都是分析分布式训练，此处恰好可以看看分布式推理。

2022-03-10 17:26:41 2357

原创 [源码解析] NVIDIA HugeCTR，GPU 版本参数服务器 --(9)--- Local hash表

在这个系列中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。本文介绍 LocalizedSlotSparseEmbeddingHash 的后向操作。

2022-03-09 20:11:27 304

原创 [源码解析] NVIDIA HugeCTR，GPU 版本参数服务器---(8) ---Distributed Hash之后向传播

在这个系列中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。本文介绍 DistributedSlotSparseEmbeddingHash 的后向操作。

2022-03-04 17:34:47 816

原创 [源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (6) --- Distributed hash表

在这篇文章中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

2022-02-23 17:43:53 268

原创 [源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (5) 嵌入式hash表

在这篇文章中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

2022-02-22 18:02:57 778

原创 [源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (4)

在这个系列中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

2022-02-21 19:37:38 357

原创 [源码解析] NVIDIA HugeCTR，GPU版本参数服务器---(3)

在本系列中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

2022-02-17 17:42:47 887

原创 [源码解析] NVIDIA HugeCTR，GPU版本参数服务器--- (2)

在这篇文章中，我们介绍了 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

2022-02-16 20:07:26 1176 2

原创 [源码解析] NVIDIA HugeCTR，GPU版本参数服务器 --(1)

本系列之中我们将会介绍 NVIDIA 出品的 HugeCTR，这是一个面向行业的推荐系统训练框架，针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

2022-02-15 19:32:08 1333 3

原创 [源码解析] 模型并行分布式训练Megatron (5) --Pipedream Flush

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3，值得我们深入分析其背后机理。本系列有 5 篇文章，通过论文和源码和大家一起学习研究。本文将看看 Megatron 如何给流水线各个阶段安排执行执行序列。

2022-02-14 17:35:22 765

原创 [源码解析] 模型并行分布式训练 Megatron (3) ---模型并行实现

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3，值得我们深入分析其背后机理。

2022-02-08 16:38:33 1773 6

原创 [源码解析] 模型并行分布式训练Megatron (2) --- 整体架构

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3，值得我们深入分析其背后机理。

2022-02-07 20:19:04 1976

原创 [源码解析] 模型并行分布式训练Megatron (1) --- 论文 & 基础

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3，值得我们深入分析其背后机理。

2022-01-27 18:53:27 5846

原创 [源码分析] Facebook如何训练超大模型--- (5)

之前文章之中我们谈到了FSDP支持混合精度训练，本篇来看看 Activation recomputation。

2022-01-26 08:48:21 385

原创 [源码分析] Facebook如何训练超大模型 --- (4)

FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本，可以认为是对标微软 ZeRO，目标是训练超大规模模型，之前文章之中我们谈到了FSDP支持混合精度训练，所以我们再来看看相关知识。

2022-01-24 18:53:14 2373

原创 [源码分析] Facebook如何训练超大模型 --- (3)

FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本，可以认为是对标微软 ZeRO，目标是训练超大规模模型，本文从源码角度来介绍 FSDP 如何实现offload。

2022-01-21 14:38:18 3087

原创 [源码分析] Facebook如何训练超大模型---(1)

FSDP（Fully Sharded Data Parallel）是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本，可以认为是对标微软 ZeRO，其本质是 parameter sharding。Parameter sharding 就是把模型参数等切分到各个GPU之上。我们会以 Google，微软和 Facebook 的论文，博客以及代码来进行学习分析。

2022-01-17 19:48:44 1307 1

原创 [宋史学习] 对西夏战争中暴露出的积弱形势 & 范仲淹

摘录“三川口之战”，。“好水川之战”，“定川寨之役” 三次重大战役的失败。宋与西夏的战争，宋军若以小部队出击或守城，则常能获胜或成功抵御西夏军的攻击。而三次重大的战役，都是属于野战性质，西夏集中了几倍甚至十多倍于宋军的兵力，围攻没有城寨作防御设施，或是被迫处于缺乏水源的小城寨中的宋军。宋军在前两次战役中，由于主将的轻敌，虽经激烈战斗，仍以重大伤亡而战败；第三次战役则除了主将指挥失当外，更由于宋军士兵怯敌拒战而失败。宋廷的积弱现象在对西夏的战争中暴露无遗。宋朝长期忽视军备，士兵得不到正规而有效的训练，加之

2022-01-15 12:10:21 202

Word2vec-OpenSourceReading-master.zip

空空如也