自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Megatron与ZeRO

这只是通常的 DDP,只是没有每个 GPU 都复制完整的模型参数、梯度和优化器状态,而是每个 GPU 只存储其中的一部分。在随后的运行过程中,当需要给定层的完整层参数时,所有 GPU 同步以相互提供它们缺失的部分 —— 仅此而已。后续我们看到的很多LLM MoE的架构改进,其实都是在Gshard的这一套逻辑上做的迭代,比如loss改造、topKexpert的选择,稀疏矩阵计算优化等等。因此对应于分层架构,主要是分层次的通信速度/带宽,需要采用分层的并行策略。v1解决的主要问题,是降低显存;

2024-03-11 09:58:55 1643

原创 并行计算课程自学2

并行计算中的同步通信以及异步通信

2024-01-02 15:38:39 759

原创 并行计算课程自学1

并行计算基础

2023-12-29 14:07:25 976

原创 超标量处理器学习 第一章 流水线

简单来说,如果一个处理器每个周期可以取出多于一条的指令送到流水线中执行,并且使用硬件来对指令集进行调度,那么这个处理器就可以称为超标量处理器。

2023-12-19 12:45:34 134

原创 GPGPU-Sim 3.x 官方介绍 01

如果您研究的机制对指令调度敏感:ptxas在将PTX转换为SASS之后重新调度指令,以增加计算内存重叠。它还将短分支转换为谓词指令。Other parts idle when GPU is running compute kernels(可以用。在 SASS (用于 Quadro FX 5800)中,共享内存和常量内存可以作为指令的操作数直接访问。如果您的目标是使用GPGPU Sim进行应用程序性能调整,请先尝试使用SASS。GPUWattch Energy Model分析)(这个在后面会介绍)

2023-11-28 13:13:27 195

原创 KVM is required but is unavailable on this system虚拟化核不存在问题

如果你和我最开始一样使用的docker容器并且输入egrep -c '(vmx|svm)' /proc/cpuinfo得到结果为0或者lsmod |grep kvm无法运行,说明我们的系统不支持虚拟化。所以如何开启虚拟化呢?

2023-11-27 12:41:03 57

原创 使用Doker创建GPGPU仿真环境

docker 启动 容器名称:gpgpusim0 物理挂载地址:D:/docker/gpgpusim/gpgpusim1 这里nvcr.io/nvidia/cuda:10.1-devel-ubuntu16.04也可以换成镜像号。遇到缺少graphviz包问题。得到 helllo.out文件。

2023-11-27 10:24:02 143

原创 基于CUDA SDK安装失败的解决办法

报错失败:E: Unable to locate package libglut3-dev。查找nvcc确认是否已经安装过CUDA。使用apt接口安装CUDA SDK。

2023-09-06 09:33:35 281

原创 attention is all you need 论文解读视频文字版

在创建这样一个固定大小的上下文向量方面,如果信息是前导的,这些输入句子有时很短,有时很长,所以对于这种不同数量的情况,总是有固定大小的源句子的信息。pdn street值每次按顺序输入时都会更新,由于这个lead state值有之前输入过的某些词的信息,所以当输入最后一个词时,此时的street值就代表了整个源句是,它可以作为一个单一的上下文向量。这是通过引用所有的值来完成的,换句话说,不是只看一个这样的压缩上下文backto,而是得到一种考虑所有这些输出值的td sum vector,然后狗是这样的。

2023-04-06 01:56:52 73 1

原创 Binary Neural Networks notes

只对权重进行二值化的话,feature map图像特征图依旧是float型的这样的话在运算中依旧需要进行其他运算处理,但为保证网络运行中间所添加的BatchNormBN层不能被二值化, BN层最大的作用就是可以加速学习并减少权重尺度的影响,带来一定量的正则化并提高CNN的性能,但是BN设计了很多的矩阵运算会降低运算速度。在一定程度上消除了它相对于正负1这一段的梯度和它本身之间的梯度的差别。边缘神经计算需要一些轻量级的网络,而轻量级的网络是我们进行压缩剪枝等对于网络的优化操作之后获得的。

2023-01-04 16:02:39 102 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除