CUDA
文章平均质量分 63
wendox
这个作者很懒,什么都没留下…
展开
-
线程网格、线程块及线程
SPMD模型单程序多数据,属于SIMD的一种变体。 并行编程的核心是线程的概念,一个线程就是程序中的一个单个的执行流。一个个线程组合在一起形成了并行程序。任务执行模式基于锁思想,执行N个SP,每个SP都指向数据不停相同数据,原创 2016-01-16 19:09:45 · 1002 阅读 · 0 评论 -
CUDA 基础知识(1)
cell处理器SPE,流处理单元。程序员需要从程序和数据2方面管理多个SPE。流水线的处理方式,使得系统的最快速度为最慢节点的速度。多点计算在遇到收益递减规律时,解决办法是在各个影响因素之间选择一个平衡点。,然互多次复制他。集群计算手打通信速度的限制。每个CPU作为一个节点,一级缓存为内存,二级缓存为网络开关。 一个集GPU内部有许多流处理器簇(SM),类似CPU的核。SM与共享存储连接在一起,然原创 2016-01-16 11:17:43 · 568 阅读 · 0 评论 -
CUDA基础知识(2)
chapter 2 使用GPU理解计算机并行设计的基本概念和GPU技术宽泛的介绍。 并行程序设计通常和硬件联系紧密。引入并行程序的目的是获得更好的性能。代价是降低可移植性。两个并行设计的标准MPI和OpenMP通过不断的修改完善而被始终使用。CUDA能够很好讲OpenMP和MPI结合在一起。一般来说线程模型适用于OpenMP,而进程模型适用于MPI。在GPU环境下需要将他们混合在一起。CUDA使用原创 2016-01-16 11:18:20 · 471 阅读 · 0 评论 -
CUDA编程实践--cuDNN
NVIDIA® cuDNN is a GPU-accelerated library of primitives for deep neural networks. cuDNN是一个对DNN的GPU加速库。他提供高度可调整的在DNN中的常用的例程实现。 It provides highly tuned implementations of routines arising frequently原创 2016-01-16 22:20:30 · 7687 阅读 · 0 评论 -
CUDA编程实践--cuBLAS
BLAS BLAS (Basic Linear Algebra Subprograms) is a specification that prescribes a set of low-level routines for performing common linear algebra operations such as vector addition, scalar multiplic原创 2016-01-25 16:27:28 · 4274 阅读 · 0 评论 -
CUDA基础知识(0)
所有的GPU设备通过PCI-E总线与处理器相连。PCI-E 2.0总线标准,传输速度为5.0GB/s,访问内存需要经过北桥,访问外设需要经过北桥和南桥。北桥服务于所有高度设备,南桥服务于低速设备。CDUA4.0 SDK提供的CPU直连技术诸如infiniBand等高速互联设备10kM以太网卡可以连接到PCI-E总线上。这是可以直接和CPU通信。,无需先经过CPU转发。 Nehalem_X58系统原创 2016-01-16 11:26:05 · 947 阅读 · 0 评论 -
CUDA编程实践--环境搭建
建立工程选个一个软件开噶工具包示例作为蓝本,移除其中不需要的工程文件夹,并插入自己的源文件。CUDA的代码拓展名为.cu,这时编译会采用NVIDIA编译器而不是Visual C编译器。 另外一种新建方式可以通过工程模板向导,方便的建立一个基本的工程框架。64位的windows使用是需要把平台改为x64,如果准备构建32和64位2种CUDA应用程序,则需要安装32位和64位的CUDA软件工具包,对于原创 2016-01-16 17:03:09 · 401 阅读 · 0 评论