体系结构/CUDA的一些东西(笔记)【1】

一、基本架构概述

在这里插入图片描述
南桥:连接大多外设和系统
北桥:包含图形总线(后被PCIE接口取代)和内存控制器(通过前端总线与内存相连)
每一个PCIE2.0的lane理论可提供500MB/s带宽,其lane数可为1、4、8、16,GPU需要平台上所有外设最大带宽,一般插入由16lane构成的PCIE插槽。
在这里插入图片描述

“对称处理器簇(SMP)”系统共享同一个通往CPU内存路径,不同CPU内存访问性能相对一致。多CPU相对单CPU多线程能力更好。
在这里插入图片描述

AMD的Opteron与Intel的Nehalem,北桥的内存控制器直接集成到CPU,提高CPU的内存性能
在这里插入图片描述

NUMA:非一致内存访问
HT:超传输
QPI(quick path interconnect):快速通道互联
HT和QPI是CPU之间、CPU与IO集线器的点对点连接,在采用HT/QPI系统中,每个CPU都可以访问任何内存存储单元,对于内存的物理地址直接附属于cpu否本地内存访问单元会更快。“非本地访问”依赖HT/QPI检查其他CPU缓存,清除所请求数据的缓存副本,然后传递数据到发出请求的CPU。
运行在不同CPU上的两个线程“伪共享”,导致过多HT/QPI事务在同一缓存行上访问内存存储单元
内存重叠:以缓存行边界为准,在CPU间均匀划分物理内存,减轻访问非本地内存对性能影响
CUDA程序注意使用NUMA API,防止GPU发起内存复制非本地,内存事务将在HT/QPI互联结构中需要额外“跳跃”。GPU需大带宽,这些DMA操作会降低HT/QPI对于主要对象服务的能力,比CPU的“伪共享”带来的性能影响更大(因带宽高)

集成PCIE优点:CPU缓存可以直接参与PCIE总线通信;DMA读请求可以直接读取缓存,GPU写入的数据会放入缓存
缺点:设计师不能建立单一IO集线器服务于多个CPU系统,不同CPU上的GPU之间无法进行点对点操作
在这里插入图片描述
在这里插入图片描述

CUDA中用于映射锁页内存的API把分配的主机内存映射到CUDA内核的地址空间,使其可以直接被访问,也称“零复制”,因内存为共享,复制不需要通过总线。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

点对点内存访问(其他GPU设备内存映射,而不是内存)不能跨越IO集线器工作,也不适用于集成了PCIE插槽的沙桥CPU
SLI(scalable link interface):让多GPU并行工作,使用户能够像使用单个GPU一样使用多个GPU

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值