体系结构/CUDA的一些东西（笔记）【1】

最新推荐文章于 2023-11-12 16:40:21 发布

lxy-05112

最新推荐文章于 2023-11-12 16:40:21 发布

阅读量166

点赞数

分类专栏：体系结构/CUDA 文章标签：多线程深度学习

本文链接：https://blog.csdn.net/weixin_46362482/article/details/111302651

版权

体系结构/CUDA 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、基本架构概述

在这里插入图片描述
南桥：连接大多外设和系统
北桥：包含图形总线（后被PCIE接口取代）和内存控制器（通过前端总线与内存相连）
每一个PCIE2.0的lane理论可提供500MB/s带宽，其lane数可为1、4、8、16，GPU需要平台上所有外设最大带宽，一般插入由16lane构成的PCIE插槽。
在这里插入图片描述

“对称处理器簇（SMP）”系统共享同一个通往CPU内存路径，不同CPU内存访问性能相对一致。多CPU相对单CPU多线程能力更好。
在这里插入图片描述

AMD的Opteron与Intel的Nehalem，北桥的内存控制器直接集成到CPU，提高CPU的内存性能
在这里插入图片描述

NUMA:非一致内存访问
HT：超传输
QPI(quick path interconnect)：快速通道互联
HT和QPI是CPU之间、CPU与IO集线器的点对点连接，在采用HT/QPI系统中，每个CPU都可以访问任何内存存储单元，对于内存的物理地址直接附属于cpu否本地内存访问单元会更快。“非本地访问”依赖HT/QPI检查其他CPU缓存，清除所请求数据的缓存副本，然后传递数据到发出请求的CPU。
运行在不同CPU上的两个线程“伪共享”，导致过多HT/QPI事务在同一缓存行上访问内存存储单元
内存重叠：以缓存行边界为准，在CPU间均匀划分物理内存，减轻访问非本地内存对性能影响
CUDA程序注意使用NUMA API，防止GPU发起内存复制非本地，内存事务将在HT/QPI互联结构中需要额外“跳跃”。GPU需大带宽，这些DMA操作会降低HT/QPI对于主要对象服务的能力，比CPU的“伪共享”带来的性能影响更大（因带宽高）

集成PCIE优点：CPU缓存可以直接参与PCIE总线通信；DMA读请求可以直接读取缓存，GPU写入的数据会放入缓存
缺点：设计师不能建立单一IO集线器服务于多个CPU系统，不同CPU上的GPU之间无法进行点对点操作
在这里插入图片描述

CUDA中用于映射锁页内存的API把分配的主机内存映射到CUDA内核的地址空间，使其可以直接被访问，也称“零复制”，因内存为共享，复制不需要通过总线。

在这里插入图片描述

点对点内存访问（其他GPU设备内存映射，而不是内存）不能跨越IO集线器工作，也不适用于集成了PCIE插槽的沙桥CPU
SLI（scalable link interface）：让多GPU并行工作，使用户能够像使用单个GPU一样使用多个GPU

lxy-05112

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
体系结构/CUDA的一些东西（笔记）【1】

一、基本架构概述南桥：连接大多外设和系统北桥：包含图形总线（后被PCIE接口取代）和内存控制器（通过前端总线与内存相连）每一个PCIE2.0的lane理论可提供500MB/s带宽，其lane数可为1、4、8、16，GPU需要平台上所有外设最大带宽，一般插入由16lane构成的PCIE插槽。“对称处理器簇（SMP）”系统共享同一个通往CPU内存路径，不同CPU内存访问性能相对一致。多CPU相对单CPU多线程能力更好。AMD的Opteron与Intel的Nehalem，北桥的内存控制器直接集成到
复制链接

扫一扫

专栏目录