自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

罗西的思考

一手伸向技术,一手伸向生活

  • 博客(325)
  • 资源 (1)
  • 收藏
  • 关注

原创 新书出版:《分布式机器学习——系统、工程与实战》

当然,很多时候我们只有源码,那么就只能从源码中根据细节来探寻,重建论文作者的思路,提炼其精华,争取和作者达到一个跨越空间和时间的震荡和共鸣。其实我也没有很好的学习方法,可能因为我比较喜欢钻研技术,如果某一个技术点没有想明白,我就会围绕这个点进行深入挖掘,而往往为了弄明白一个知识点,就会研究其他相关知识点,这样从一个点很容易延申到一条线,进而扩展到一个面,最后形成一张网,就构建了自己的一个小小的知识体系。

2023-07-21 23:56:05 297

原创 [源码解析] TensorFlow 分布式之 MirroredStrategy 分发计算

前一篇我们分析了MirroredStrategy 的基本架构和如何更新变量,本文我们来看看 MirroredStrategy 如何运行。具体希望了解的是,MirroredStrategy 通过什么方式在远端设备节点上运行训练方法(如何分发计算),MirroredStrategy 和我们之前分析的 TF 运行时怎么联系起来?和 master,worker 这些概念怎么联系起来?

2022-04-26 08:05:14 368

原创 [源码解析] TensorFlow 之 分布式变量

在 TensorFlow 之中,分布式变量是在多个设备上创建的变量。Mirrored variable 和 SyncOnRead variable 是两个例子。本文就对分布式变量进行分析。

2022-04-14 17:48:47 508

原创 [源码解析] NVIDIA HugeCTR,GPU 版本参数服务器---(7) ---Distributed Hash之前向传播

在这系列文章中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

2022-02-28 16:45:19 520

原创 [源码解析] 模型并行分布式训练 Megatron (4) --- 如何设置各种并行

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。

2022-02-10 18:44:15 2024

原创 [源码分析] Facebook如何训练超大模型 --- (2)

FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,目标是训练超大规模模型。前文我们介绍了 FSDP 如何使用,本文从源码角度来介绍 FSDP 如何实现参数分区。

2022-01-19 19:55:20 1101

原创 [源码解析] TensorFlow 分布式之 ClusterCoordinator

本文我们主要来看看ParameterServerStrategy如何分发计算,也就是ClusterCoordinator如何运作。这是TF分布式的最后一篇。

2022-05-21 11:48:57 500

原创 [源码解析] TensorFlow 分布式之 ParameterServerStrategy V2

对于 ParameterServerStrategy V2,我们将从几个方面来研究:如何与集群建立连接,如何生成变量,如何获取数据,如何运行。其中,变量和作用域我们在前文已经研究过,运行在 MirroredStrategy 里面也介绍,所以本文主要看看如何使用,如何初始化。在下一篇之中会重点看看如何分发计算。

2022-05-14 08:12:08 500

原创 [源码解析] TensorFlow 分布式之 ParameterServerStrategy V1

本文我们看看 ParameterServerStrategy,就是第一版代码。研究这个是因为目前工业界还有很多公司在使用,而且其内部机制也比较清晰易懂,值得我们分析。

2022-05-08 09:16:52 425

原创 [源码解析] TensorFlow 分布式之 MirroredStrategy

MirroredStrategy 策略通常用于在一台机器上用多个GPU进行训练。其主要难点就是:如何更新 Mirrored 变量?如何分发计算?本文我们看看其总体思路和如何更新变量。

2022-04-19 18:40:00 433

原创 [源码解析] TensorFlow 分布式 DistributedStrategy 之基础篇

我们接下来介绍TensorFlow分布式Strategy的基础,本文会先看看Strategy的类体系和如何处理数据,下一篇看看如何处理变量。

2022-04-12 14:23:15 430

原创 [翻译] 使用 TensorFlow 进行分布式训练

本文以两篇官方文档为基础来学习TensorFlow如何进行分布式训练,借此进入Strategy世界。

2022-04-10 09:51:28 427

原创 [源码解析] TensorFlow 分布式环境(8) --- 通信机制

在 TF 分布式模式之中,Send/Recv 通过 RpcRemoteRendezvous 完成数据交换,所以我们本文来看看 TF 之中的数据交换机制 Rendezvous。

2022-04-06 15:55:49 382

原创 [源码解析] TensorFlow 分布式环境(7) --- Worker 动态逻辑

前文中,Master 在流程之中先后调用了 gRPC 给远端 worker 发送命令,即,GrpcRemoteWorker 一共发了两个请求:RegisterGraphAsync,RunGraphAsync,本文我们就来看看 GrpcWorkerService 如何处理。

2022-04-01 16:51:42 2855

原创 [源码解析] TensorFlow 分布式环境(6) --- Master 动态逻辑

在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。本文会从 Client 开始,看看 Master 如何对计算图进行处理。

2022-03-29 16:36:03 368

原创 [源码解析] TensorFlow 分布式环境(5) --- Session

在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。会话机制是TensorFlow 分布式运行时的核心,我们接下来按照从 Client 到 worker 的流程,把 Session 机制从前到后走一遍。

2022-03-28 19:50:49 361

原创 [源码解析] TensorFlow 分布式环境(4) --- WorkerCache

在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。我们接下来介绍缓存机制。

2022-03-23 19:43:51 1643

原创 [源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑

在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。本篇介绍 Worker(一系列相关概念) 的静态架构。

2022-03-21 19:32:33 2017

原创 [源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑

在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。本文梳理下 Master 的静态逻辑。

2022-03-19 14:58:16 1183

原创 [源码解析] TensorFlow 分布式环境(1) --- 总体架构

在具体介绍 TensorFlow 分布式的各种 Strategy 之前,我们首先需要看看分布式的基础:分布式环境。只有把基础打扎实了,才能在以后的分析工作之中最大程度的扫清障碍,事半功倍。

2022-03-16 19:35:34 4673

原创 [翻译] TensorFlow 分布式之论文篇 “Implementation of Control Flow in TensorFlow“

读论文有一种原则是:本领域最经典的论文,近5年最热的论文,近1年最新的论文。按照这个原则,本文主要介绍一篇Tensorflow 经典论文 [Implementation of Control Flow in TensorFlow]。

2022-03-15 17:30:27 2107

原创 [翻译] TensorFlow 分布式之论文篇 “TensorFlow : Large-Scale Machine Learning on Heterogeneous Distributed Syst

本文主要介绍一篇 TensorFlow 经典论文[ TensorFlow : Large-Scale Machine Learning on Heterogeneous Distributed Systems](http://download.TensorFlow .org/paper/whitepaper2015.pdf)。大家如果读了下面论文就会发现 TensorFlow分布式的博大精深。

2022-03-12 09:33:48 996

原创 [翻译] NVIDIA HugeCTR,GPU 版本参数服务器 --(10)--- 推理架构

经过9篇文章之后,我们基本把 HugeCTR 的训练过程梳理了以下,现在我们有必要看看HugeCTR如何进行推理,这样可以让我们从整体上有一个更好的把握。而且我们之前都是分析分布式训练,此处恰好可以看看分布式推理。

2022-03-10 17:26:41 2357

原创 [源码解析] NVIDIA HugeCTR,GPU 版本参数服务器 --(9)--- Local hash表

在这个系列中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。本文介绍 LocalizedSlotSparseEmbeddingHash 的后向操作。

2022-03-09 20:11:27 304

原创 [源码解析] NVIDIA HugeCTR,GPU 版本参数服务器---(8) ---Distributed Hash之后向传播

在这个系列中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。本文介绍 DistributedSlotSparseEmbeddingHash 的后向操作。

2022-03-04 17:34:47 816

原创 [源码解析] NVIDIA HugeCTR,GPU版本参数服务器--- (6) --- Distributed hash表

在这篇文章中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

2022-02-23 17:43:53 268

原创 [源码解析] NVIDIA HugeCTR,GPU版本参数服务器--- (5) 嵌入式hash表

在这篇文章中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

2022-02-22 18:02:57 778

原创 [源码解析] NVIDIA HugeCTR,GPU版本参数服务器--- (4)

在这个系列中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

2022-02-21 19:37:38 357

原创 [源码解析] NVIDIA HugeCTR,GPU版本参数服务器---(3)

在本系列中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

2022-02-17 17:42:47 887

原创 [源码解析] NVIDIA HugeCTR,GPU版本参数服务器--- (2)

在这篇文章中,我们介绍了 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

2022-02-16 20:07:26 1176 2

原创 [源码解析] NVIDIA HugeCTR,GPU版本参数服务器 --(1)

本系列之中我们将会介绍 NVIDIA 出品的 HugeCTR,这是一个面向行业的推荐系统训练框架,针对具有模型并行嵌入和数据并行密集网络的大规模 CTR 模型进行了优化。

2022-02-15 19:32:08 1333 3

原创 [源码解析] 模型并行分布式训练Megatron (5) --Pipedream Flush

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。本系列有 5 篇文章,通过论文和源码和大家一起学习研究。本文将看看 Megatron 如何给流水线各个阶段安排执行执行序列。

2022-02-14 17:35:22 765

原创 [源码解析] 模型并行分布式训练 Megatron (3) ---模型并行实现

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。

2022-02-08 16:38:33 1773 6

原创 [源码解析] 模型并行分布式训练Megatron (2) --- 整体架构

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。

2022-02-07 20:19:04 1976

原创 [源码解析] 模型并行分布式训练Megatron (1) --- 论文 & 基础

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。

2022-01-27 18:53:27 5846

原创 [源码分析] Facebook如何训练超大模型--- (5)

之前文章之中我们谈到了FSDP支持混合精度训练,本篇来看看 Activation recomputation。

2022-01-26 08:48:21 385

原创 [源码分析] Facebook如何训练超大模型 --- (4)

FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,目标是训练超大规模模型,之前文章之中我们谈到了FSDP支持混合精度训练,所以我们再来看看相关知识。

2022-01-24 18:53:14 2373

原创 [源码分析] Facebook如何训练超大模型 --- (3)

FSDP是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,目标是训练超大规模模型,本文从源码角度来介绍 FSDP 如何实现offload。

2022-01-21 14:38:18 3087

原创 [源码分析] Facebook如何训练超大模型---(1)

FSDP(Fully Sharded Data Parallel)是Facebook 深度借鉴微软ZeRO之后提出的PyTorch DDP升级版本,可以认为是对标微软 ZeRO,其本质是 parameter sharding。Parameter sharding 就是把模型参数等切分到各个GPU之上。我们会以 Google,微软和 Facebook 的论文,博客以及代码来进行学习分析。

2022-01-17 19:48:44 1307 1

原创 [宋史学习] 对西夏战争中暴露出的积弱形势 & 范仲淹

摘录“三川口之战”,。“好水川之战”,“定川寨之役” 三次重大战役的失败。宋与西夏的战争,宋军若以小部队出击或守城,则常能获胜或成功抵御西夏军的攻击。而三次重大的战役,都是属于野战性质,西夏集中了几倍甚至十多倍于宋军的兵力,围攻没有城寨作防御设施,或是被迫处于缺乏水源的小城寨中的宋军。宋军在前两次战役中,由于主将的轻敌,虽经激烈战斗,仍以重大伤亡而战败;第三次战役则除了主将指挥失当外,更由于宋军士兵怯敌拒战而失败。宋廷的积弱现象在对西夏的战争中暴露无遗。宋朝长期忽视军备,士兵得不到正规而有效的训练,加之

2022-01-15 12:10:21 202

Word2vec-OpenSourceReading-master.zip

zhiyong大侠针对word2vec c版本代码所做的源码分析,非常细致,强烈推荐。 如果能够结合其博客阅读,更加理想。

2020-07-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除