并行运算
Innerpeace_yu
Stay Hungry ! Stay Foolish ! Love Life , Love Myself !
展开
-
Qt中ui文件的使用
Qt(73) 版权声明:本文为博主原创文章,未经博主允许不得转载。 用designer设计的*.ui文件可以通过uic工具转换为*.h文件(在编译时也会自动生成这样一个ui_*.h文件),有了这个.h文件就可以直接按照纯C++的方式对其中的类进行调用。ui文件的使用就是利用默认工具uic自动产生一个类,然后用该类的setui函数加载界面到相应的对象上。转载 2016-10-24 09:14:08 · 430 阅读 · 0 评论 -
多重继承
多重继承《C++ primer 3th》P794~798为支持多继承,一个类的派生表:class Bear : public ZooAnimal { ... };被扩展成支持逗号分割的基类表。例如:class Panda : public Bear, publicEndangered { ... };每个被列出的基类还必须指定其访问级别:public、protected转载 2016-10-22 16:14:48 · 323 阅读 · 0 评论 -
CUDA
——————————————————正文—————————————————————— 鉴于自己的毕设需要使用GPU CUDA这项技术,想找一本入门的教材,选择了Jason Sanders等所著的书《CUDA By Example an Introduction to General Purpose GPU Programming》。这本书作为入门教材,写的很不错。自己觉得从理解转载 2016-10-11 23:07:48 · 1186 阅读 · 0 评论 -
CUDA Libraries简介
CUDA Libraries简介 上图是CUDA 库的位置,本文简要介绍cuSPARSE、cuBLAS、cuFFT和cuRAND,之后会介绍OpenACC。cuSPARSE线性代数库,主要针对稀疏矩阵之类的。cuBLAS是CUDA标准的线代库,不过没有专门针对稀疏矩阵的操作。cuFFT傅里叶变换cuRAND随机数CUDA库和CPU编程所用到的库没有什么区别,都是一系列接口的集合转载 2016-10-21 16:38:29 · 1804 阅读 · 0 评论 -
统一寻址
大家好!我是CSDN CUDA版块新任版主!希望能够尽自己的力量帮助大家解决有关CUDA编程的问题,并且会定期发布一些问题同大家一起讨论,共同学习,共同进步!大家有问题可以发帖留言也可以发邮件到我的邮箱sparrow915791868@163.com。 在大家的共同努力下,祝愿CSDN的CUDA版块能够越办越好! 下面进入此次讨论的主题!———————————————分割线转载 2016-10-21 16:35:18 · 1821 阅读 · 0 评论 -
CUDA 中 FFT 的使用
CUDA 中 FFT 的使用标签: cudacufftfft内存参数2015-07-02 11:55 661人阅读 评论(0)收藏举报分类: 图像处理(13) CUDA(26) 版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]1. 流程使用cufftHandle创建句转载 2016-09-27 08:34:11 · 3813 阅读 · 0 评论 -
深入理解CUDA线程层次以及关于设置线程数的思考
深入理解CUDA线程层次以及关于设置线程数的思考2015-09-16 08:45 215人阅读 评论(0)收藏举报分类: cuda(24) GPU线程以网格(grid)的方式组织,而每个网格中又包含若干个线程块,在G80/GT200系列中,每一个线程块最多可包含512个线程,Fermi架构中每个线程块支持高达1536个线程。同一线程块中的转载 2016-09-25 08:44:47 · 1823 阅读 · 0 评论 -
推荐CUDA程序优化的15个策略
推荐CUDA程序优化的15个策略0条评论2011-07-06 09:48 来源:潇湘学子岳麓生的博客 作者: 潇湘学子岳麓生 编辑:王玉圆 【IT168 技术】在《CUDA程序优化策略》这篇文章中,我们介绍过CUDA优化的常见策略。今天我们会对CUDA优化策略进行详细讲解。具体策略如下: 1. memory coalescing,保证内存融合。因为globa转载 2016-09-25 08:43:50 · 779 阅读 · 0 评论 -
CUDA数组分配
CUDA数组分配2013-09-30 10:37 1437人阅读 评论(0)收藏举报分类: CUDA(106) http://www.cnblogs.com/traceorigin/archive/2013/04/12/3016540.htmlcuda内存分配真是乱啊,这次总结一下数组的分配。概述:数组分配可以通过cu转载 2016-09-25 08:41:57 · 901 阅读 · 0 评论 -
CUDA 纹理的使用
CUDA 纹理的使用 2013-01-25 10:09 阅读(2782)评论(0)纹理绑定有两种,一个是绑定到线性内存就是用cudaMalloc();cudaMemcpy();开辟的内存空间,另一种是绑定到cudaMallocArray, cudaMemcpyToArray开辟到的二维数组或者三维数组。先说比较简单的就是绑定到cudamalloc开辟到的内存空间。首先是转载 2016-09-25 08:41:21 · 467 阅读 · 0 评论 -
CUDA 纹理内存
CUDA 纹理内存2013-09-30 10:36 4033人阅读 评论(0)收藏举报分类: CUDA(106) http://www.cnblogs.com/traceorigin/archive/2013/04/11/3015755.html1、概述 纹理存储器中的数据以一维、二维或者三维数组的形式存储在显存中,转载 2016-09-25 08:40:48 · 239 阅读 · 0 评论 -
CUDA学习笔记之 CUDA存储器模型
CUDA学习笔记之 CUDA存储器模型标签: cuda存储bindingcache编程api2010-12-14 01:33 1223人阅读 评论(0)收藏举报分类: CUDA(26) GPU片内:register,shared memory; 板载显存:local memory,constant memory, textur转载 2016-10-17 15:03:16 · 284 阅读 · 0 评论 -
cuda性能测试
我们在编写完CUDA程序后, 还要从性能出发考虑问题,不断优化代码,使执行速度提高是并行处理的唯一目的。 测试代码运行速度有很多方法,C语言里提供了类似于SystemTime()这样的API获得系统时间,然后计算两个事件之间的时长从而完成计时功能。在CUDA中,我们有专门测量设备运行时间的API,下面一一介绍。翻开编程手册《CUDA_Toolkit_Reference_Manual转载 2016-10-13 17:13:16 · 4544 阅读 · 0 评论 -
深入浅出CUDA编程
标签: cuda编程threadfloatconflictexpress2010-12-10 13:29 44960人阅读 评论(7)收藏举报CUDA 是 NVIDIA 的 GPGPU 模型,它使用 C 语言为基础,可以直接以大多数人熟悉的 C 语言,写出在显示芯片上执行的程序,而不需要去学习特定的显示芯片的指令或是特殊的结构。”编者注:NVID转载 2016-10-17 15:05:32 · 397 阅读 · 0 评论 -
Ganglia集群监控系统搭建
前段时间自己用两台工作站搭建了一个MPI的运行环境,那如何直观的看到每个节点的负载情况呢,于是就想到了用Ganglia搭建一个集群检测系统,相对比较简单,下面详细介绍一下过程1、Ganglia概述Ganglia 是一款为HPC(高性能计算) 集群设计的可扩展性的分布式监控系统,它可以监视和显示集群中节点的各种状态信息,它由运行在各个节点上的守护进程gmond 采集 CPU、内存、磁盘利...原创 2018-12-21 19:30:57 · 908 阅读 · 0 评论 -
stderr和stdout(printf、fprintf、sprintf)(转)
先区分一下:printf,sprintf,fprintf。1,printf就是标准输出,在屏幕上打印出一段字符串来。2,sprintf就是把格式化的数据写入到某个字符串中。返回值字符串的长度。3,fprintf是用于文件操作。 原型:int fprintf(FILE *stream,char *format,[argument]); 功能:fp...转载 2018-11-13 15:06:40 · 839 阅读 · 0 评论 -
在linux系统下使用C语言操作临时文件
有时程序需要存储很大量的数据,或者在几个进程间交换数据,这时您可能考虑到使用临时文件。使用临时文件要考虑几个问题:1、保证临时文件间的文件名不互助冲突。2、保证临时文件中内容不被其他用户或者黑客偷看、删除和修改。所以在linux下有专门处理临时文件的函数mkstemp函数mkstemp函数将在系统中以独一无二的文件名创建一个文件并打开,而且只有当前用户才有访问这个临时文件的权限...转载 2018-11-13 15:05:36 · 1120 阅读 · 1 评论 -
多台工作站搭建MPI并行环境
因为所作研究工作计算量真是太大了,一台z840的48核工作站还是感觉有点慢,所以就想着自己搭建一个小的集群环境,正好办公室里面有台人家不用z800,所以就拿过来试了一下。折腾了两天,终于在两台hp z840和z800装有centos7的工作站上搭建好了MPI并行环境。还是有很多地方需要注意的,稍有不慎,就会发生错误。下面对这两天的工作进行一下总结,就算抛砖引玉吧。。。首先呢,两台装有lin...原创 2018-11-13 14:52:00 · 7610 阅读 · 0 评论 -
GPU 共享内存bank冲突(shared memory bank conflicts)
GPU 共享内存bank冲突(shared memory bank conflicts) 时间 2016-11-05 21:47:58 FindSpace 原文 http://www.findspace.name/easycoding/1784 主题 共享内存 Introduction本文总结了GPU上共享内存的bank conflicts。主要翻译自Reference和简单解释了课件转载 2017-03-06 15:30:19 · 7261 阅读 · 0 评论 -
cuda资料
CUDA是什么 CUDA,Compute Unified Device Architecture的简称,是由NVIDIA公司创立的基于他们公司生产的图形处理器GPUs(Graphics Processing Units,可以通俗的理解为显卡)的一个并行计算平台和编程模型。 通过CUDA,GPUs可以很方便地被用来进行通用计算(有点像在CPU中进行的数值计算等等)转载 2017-03-01 21:11:19 · 334 阅读 · 0 评论 -
CUDA内存类型memory
CUDA内存类型memory2013-09-30 10:34 4224人阅读 评论(1)收藏举报分类: CUDA(106) http://www.cnblogs.com/traceorigin/archive/2013/04/11/3015482.htmlCUDA存储器类型:每个线程拥有自己的register and转载 2016-10-20 23:30:41 · 827 阅读 · 0 评论 -
用GPUDirect RDMA技术做的代码测试
用GPUDirect RDMA技术做的代码测试[复制链接] sisiy电梯直达楼主发表于 2015-7-13 21:06:28|只看该作者要应用GPUDirect RDMA技术,首先要有足够的硬件支持。包括infiniband的HCA转载 2016-10-20 15:22:19 · 5827 阅读 · 3 评论 -
众核多计算模式系统的构建 - 全文
来源:电子爱好者博客 作者:秩名2014年01月14日 11:380分享订阅[导读] 采用空位标记的方法对计算模式进行构建与切换,结合数据缓冲机制和计算任务加载方式,设计了众核多计算模式处理系统,实现了众核处理机多模式计算的功能。关键词:众核处理器CUDA 0 引言 在航空航天、医疗服务、地质勘探等复杂应用领域,需要处理的数据量急剧增大,需要高性能的转载 2016-10-20 15:19:14 · 591 阅读 · 0 评论 -
kepler架构GPU新特性--HyperQ
对于Kepler架构GPU的新特性——HyperQ,往上的讨论贴子还是比较少的,官方文档中也只是有一个sample,给出了代码,但对于有些情况下,HyperQ不能成功的原因没有过多的涉及,我们今天就来谈一谈。HyperQ允许多个CPU线程或进程同时向一个GPU发射任务,提高了GPU的使用率。 我们来看一个例子:C/C++ code?123转载 2016-10-20 15:15:36 · 3644 阅读 · 0 评论 -
CUDA并行算法系列之FFT快速卷积
CUDA并行算法系列之FFT快速卷积卷积定义在维基百科上,卷积定义为:离散卷积定义为:[ 0, 1, 2, 3]和[0, 1, 2]的卷积例子如下图所示:Python实现(直接卷积)根据离散卷积的定义,用Python实现:def conv(a, b): N = len(a) M = len(b) YN = N + M - 1转载 2016-09-25 08:39:54 · 1970 阅读 · 0 评论 -
CUDA程序优化技巧
CUDA程序优化技巧2013-11-18 23:41 1469人阅读 评论(4)收藏举报分类: CUDA(24) 版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]有如下几个方面1. 使用共享内存减少全局内存读取次数减少全局内存的重复数据的重复访问,此处大有学问,需要设计我们的线程组织模式转载 2016-09-25 08:37:40 · 1359 阅读 · 0 评论 -
cuda、库命令
1008 nvidia-smi 1009 ls -ltr 1010 vi mig.cu 1011* nvcc mig.cu -o a -lm 1012 clear 1013 ls 1014 nvcc mig.cu *.o -o a -lm 1015 gcc -shared -o cc.so *.c 1016 gfortran -shared -o转载 2016-09-20 09:49:06 · 960 阅读 · 0 评论 -
CUDA: GPU高性能运算
CUDA: GPU高性能运算2013-10-11 22:23 5650人阅读 评论(0)收藏举报分类: CUDA(106) 目录(?)[+]0 序言CUDA是异构编程的一个大头,洋洋洒洒的看了些资料,但是,感觉这个技术没有像C++或者Java那样有自己的权威的《编程思想》来指导系统学习,总是感觉心里不踏实,是不是自己还转载 2016-09-16 14:35:53 · 6290 阅读 · 0 评论 -
并发和并行的区别
并发和并行的区别 2012-01-07 16:30:51标签:操作系统并发 并行 并发与并行区别 休闲 所有的并发处理都有排队等候,唤醒,执行至少三个这样的步骤.所以并发肯定是宏观概念,在微观上他们都是序列被处理的,只不过资源不会在某一个上被阻塞(一般是通过时间片轮转),所以在宏观上看多个几乎同时到达的请求同时在被处理。如果是同一时刻到达的请求也会根据优先级的转载 2016-09-16 09:25:14 · 297 阅读 · 0 评论 -
cuda初步认识
特此声明:这个内容我是转别人的我只摘录一些我需要的东西,若是想看原文的,请点击下面的链接原文:http://hi.baidu.com/coolrainbow/item/de05efc83151671a50505878 1 硬件架构CUDA编程中,习惯称CPU为Host,GPU为Device。 2 并行模型Thread:并行基本单位Block:相转载 2016-09-16 09:12:30 · 327 阅读 · 0 评论 -
CUDA从入门到精通(四):加深对设备的认识
CUDA从入门到精通(四):加深对设备的认识2013-07-23 13:17 4211人阅读 评论(2) 收藏 举报 分类:GPU(29) 版权声明:本文为卜居原创文章,未经博主允许不得转载。卜居博客地址:http://blog.csdn.net/kkk584520前面三节已经对CUDA做了一个简单的介绍,这一节开始真正进入编程环节。转载 2016-09-15 13:45:36 · 498 阅读 · 0 评论 -
CUDA从入门到精通(三):必备资料
CUDA从入门到精通(三):必备资料2013-07-23 09:20 3676人阅读 评论(0) 收藏 举报 分类:GPU(29) 版权声明:本文为卜居原创文章,未经博主允许不得转载。卜居博客地址:http://blog.csdn.net/kkk584520刚入门CUDA,跑过几个官方提供的例程,看了看人家的代码,觉得并不难,但自己动转载 2016-09-15 13:44:49 · 304 阅读 · 0 评论 -
CUDA从入门到精通(二):第一个CUDA程序
CUDA从入门到精通(二):第一个CUDA程序标签: CUDAGPU2013-07-22 22:50 5175人阅读 评论(2) 收藏 举报 分类:GPU(29) 版权声明:本文为卜居原创文章,未经博主允许不得转载。卜居博客地址:http://blog.csdn.net/kkk584520[cpp] view pl转载 2016-09-15 13:40:16 · 420 阅读 · 0 评论 -
CUDA从入门到精通(一):环境搭建
CUDA从入门到精通(一):环境搭建2013-07-22 21:54 10527人阅读 评论(9) 收藏 举报 分类:GPU(29) 版权声明:本文为卜居原创文章,未经博主允许不得转载。卜居博客地址:http://blog.csdn.net/kkk584520NVIDIA于2006年推出CUDA(Compute Unified Dev转载 2016-09-15 13:32:00 · 289 阅读 · 0 评论 -
CUDA从入门到精通(零):写在前面
CUDA从入门到精通(零):写在前面标签: CUDAGPU2013-07-22 21:33 6568人阅读 评论(7) 收藏 举报 分类:GPU(29) 版权声明:本文为卜居原创文章,未经博主允许不得转载。卜居博客地址:http://blog.csdn.net/kkk584520在老板的要求下,本博主从2012年上高性能计算课程开转载 2016-09-15 13:27:09 · 246 阅读 · 0 评论 -
CUDA从入门到精通
CUDA从入门到精通2013-10-17 11:22 35712人阅读 评论(17) 收藏 举报 分类:CUDA(106) CUDA从入门到精通(零):写在前面在老板的要求下,本博主从2012年上高性能计算课程开始接触CUDA编程,随后将该技术应用到了实际项目中,使处理程序加速超过1K,可见基于图形显示器的并行计算对于追求速度的应用来说无转载 2016-09-15 13:26:26 · 553 阅读 · 0 评论 -
GPU资源分配
GPU的计算核心是以一定数量的Streaming Processor(SP)组成的处理器阵列,NV称之为Texture Processing Clusters(TPC),每个TPC中又包含一定数量的Streaming Multi-Processor(SM),每个SM包含8个SP。SP的主要结构为一个ALU(逻辑运算单元),一个FPU(浮点运算单元)以及一个Register File(寄存器堆)。S转载 2016-09-15 12:51:45 · 3591 阅读 · 0 评论 -
C与CUDA混合编程的配置问题
C与CUDA混合编程的配置问题2015-10-05 19:58 526人阅读 评论(2)收藏举报分类: CUDA(6) 目录(?)[+]原文: http://blog.csdn.net/u012234115/article/details/34860273在做项目集成的时候需要用到cpp和cuda文件联转载 2016-09-25 08:17:48 · 2319 阅读 · 1 评论 -
Linux下c和cuda混合编译,并生成动态链接库.so和使用
Linux下c和cuda混合编译,并生成动态链接库.so和使用2016-08-27 14:27 98人阅读 评论(0)收藏举报分类: Linux 版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]梗概如果要生成动态链接库,就需要把源码,无论是.c .cpp .cu还是其他的语言写的程序,都通过转载 2016-09-25 08:19:35 · 1322 阅读 · 0 评论 -
CUDA优化策略
CUDA优化策略2014-01-09 08:50 3479人阅读 评论(0)收藏举报分类: parallel computing(16) CUDA程序优化CUDA程序优化应该考虑的点:精度:只在关键步骤使用双精度,其他部分仍然使用单精度浮点以获得指令吞吐量和精度的平衡; 延迟:需要首先缓冲一部分数据转载 2016-09-25 08:36:50 · 385 阅读 · 0 评论