自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 资源 (4)
  • 收藏
  • 关注

转载 CUDA 中 FFT 的使用

CUDA 中 FFT 的使用标签: cudacufftfft内存参数2015-07-02 11:55 661人阅读 评论(0)收藏举报分类: 图像处理(13) CUDA(26) 版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]1. 流程使用cufftHandle创建句

2016-09-27 08:34:11 3765

转载 深入理解CUDA线程层次以及关于设置线程数的思考

深入理解CUDA线程层次以及关于设置线程数的思考2015-09-16 08:45 215人阅读 评论(0)收藏举报分类: cuda(24) GPU线程以网格(grid)的方式组织,而每个网格中又包含若干个线程块,在G80/GT200系列中,每一个线程块最多可包含512个线程,Fermi架构中每个线程块支持高达1536个线程。同一线程块中的

2016-09-25 08:44:47 1795

转载 推荐CUDA程序优化的15个策略

推荐CUDA程序优化的15个策略0条评论2011-07-06 09:48   来源:潇湘学子岳麓生的博客 作者: 潇湘学子岳麓生 编辑:王玉圆    【IT168 技术】在《CUDA程序优化策略》这篇文章中,我们介绍过CUDA优化的常见策略。今天我们会对CUDA优化策略进行详细讲解。具体策略如下:  1. memory coalescing,保证内存融合。因为globa

2016-09-25 08:43:50 764

转载 CUDA数组分配

CUDA数组分配2013-09-30 10:37 1437人阅读 评论(0)收藏举报分类: CUDA(106) http://www.cnblogs.com/traceorigin/archive/2013/04/12/3016540.htmlcuda内存分配真是乱啊,这次总结一下数组的分配。概述:数组分配可以通过cu

2016-09-25 08:41:57 890

转载 CUDA 纹理的使用

CUDA 纹理的使用 2013-01-25 10:09 阅读(2782)评论(0)纹理绑定有两种,一个是绑定到线性内存就是用cudaMalloc();cudaMemcpy();开辟的内存空间,另一种是绑定到cudaMallocArray, cudaMemcpyToArray开辟到的二维数组或者三维数组。先说比较简单的就是绑定到cudamalloc开辟到的内存空间。首先是

2016-09-25 08:41:21 453

转载 CUDA 纹理内存

CUDA 纹理内存2013-09-30 10:36 4033人阅读 评论(0)收藏举报分类: CUDA(106) http://www.cnblogs.com/traceorigin/archive/2013/04/11/3015755.html1、概述  纹理存储器中的数据以一维、二维或者三维数组的形式存储在显存中,

2016-09-25 08:40:48 232

转载 CUDA并行算法系列之FFT快速卷积

CUDA并行算法系列之FFT快速卷积卷积定义在维基百科上,卷积定义为:离散卷积定义为:[ 0, 1, 2, 3]和[0, 1, 2]的卷积例子如下图所示:Python实现(直接卷积)根据离散卷积的定义,用Python实现:def conv(a, b): N = len(a) M = len(b) YN = N + M - 1

2016-09-25 08:39:54 1877

转载 CUDA程序优化技巧

CUDA程序优化技巧2013-11-18 23:41 1469人阅读 评论(4)收藏举报分类: CUDA(24) 版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]有如下几个方面1. 使用共享内存减少全局内存读取次数减少全局内存的重复数据的重复访问,此处大有学问,需要设计我们的线程组织模式

2016-09-25 08:37:40 1345

转载 CUDA优化策略

CUDA优化策略2014-01-09 08:50 3479人阅读 评论(0)收藏举报分类: parallel computing(16) CUDA程序优化CUDA程序优化应该考虑的点:精度:只在关键步骤使用双精度,其他部分仍然使用单精度浮点以获得指令吞吐量和精度的平衡;           延迟:需要首先缓冲一部分数据

2016-09-25 08:36:50 372

转载 cuda warp

Warp逻辑上,所有thread是并行的,但是,从硬件的角度来说,实际上并不是所有的thread能够在同一时刻执行,接下来我们将解释有关warp的一些本质。Warps and Thread Blockswarp是SM的基本执行单元。一个warp包含32个并行thread,这32个thread执行于SMIT模式。也就是说所有thread执行同一条指令,并且每个thread会使用各自的da

2016-09-25 08:35:19 1264

转载 CUDA分支优化

CUDA分支优化标签: cuda分支优化warpSM2015-07-16 10:24 293人阅读 评论(0)收藏举报分类: CUDA(26) 版权声明:本文为博主原创文章,未经博主允许不得转载。在CUDA中,分支会极大的减弱性能,因为SM没有分支预测,因此只能让束内线程在每个分支上都执行一遍,当然如果某个分支

2016-09-25 08:34:11 2761

转载 cuda二维数组内存分配和数据拷贝

uda二维数组内存分配和数据拷贝2016-04-20 10:54 138人阅读 评论(0)收藏举报分类: 机器学习(11) 人工智能(9) 版权声明:本文为博主原创文章,允许转载。因为cuda具有高效利用GPU进行科学计算的优势,而人工智能的重点之一就是复杂的计算任务,因此学好GPU计算是学习AI的重点任务。这里,

2016-09-25 08:32:55 8553 1

转载 在.c文件中调用cuda函数

在.c文件中调用cuda函数2014-04-19 17:17 446人阅读 评论(0)收藏举报分类: cuda编程(1) 版权声明:本文为博主原创文章,未经博主允许不得转载。问题描述:假设在Ubuntu的一个用户目录下有2个文件,main.c, VectorAdd.cu,其中 VectorAdd.cu有vectorAdd函

2016-09-25 08:30:40 4308

转载 CUDA常见问题与解答

CUDA常见问题与解答标签: cuda编译器存储多线程streamwindows2012-05-25 14:47 3359人阅读 评论(0)收藏举报版权声明:本文为博主原创文章,未经博主允许不得转载。1.在SDK自带的例子程序中,发现SRC文件珜下有.cpp文件和.cu文件。这两种文件的关系和各自的作用是什么呀?  答:SDK

2016-09-25 08:29:22 644

转载 Linux动态链接库的使用

Linux动态链接库的使用1、前言  在实际开发过程中,各个模块之间会涉及到一些通用的功能,比如读写文件,查找、排序。为了减少代码的冗余,提高代码的质量,可以将这些通用的部分提取出来,做出公共的模块库。通过动态链接库可以实现多个模块之间共享公共的函数。之前看《程序员的自我修养》中讲到程序的链接和装入过程,这些玩意都是底层的,对于理解程序的编译过程有好处。http://www.ibm

2016-09-25 08:28:35 196

转载 Linux下c和cuda混合编译,并生成动态链接库.so和使用

Linux下c和cuda混合编译,并生成动态链接库.so和使用2016-08-27 14:27 98人阅读 评论(0)收藏举报分类: Linux 版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]梗概如果要生成动态链接库,就需要把源码,无论是.c .cpp .cu还是其他的语言写的程序,都通过

2016-09-25 08:26:32 812

转载 NVCC CUDA编译流程

NVCC CUDA编译流程 (2012-09-23 17:00:13)转载▼标签:杂谈分类: CUDA学习一、CUDA编译流程简介Nvcc是一种编译器驱动,通过命令行选项可以在不同阶段启动不同的工具完成编译工作,其目的在于隐藏了复杂的CUDA编译细节,并且它不是一个特殊的CUDA编译驱动而是在模仿一般的通用编译驱动如g

2016-09-25 08:24:29 14073

转载 nvcc gcc g++混合编译器编程

nvcc gcc g++混合编译器编程2013-01-18 20:33 4836人阅读 评论(3)收藏举报分类: CUDA(46) C/C++(61) GCC(4) 版权声明:本文为博主原创文章,未经博主允许不得转载。有很多同鞋问怎么使用CUDA和其它的编译器连用呢?混合编程?先吧代码贴出来:文件1 :

2016-09-25 08:22:03 4064

转载 extern "c"用法解析

extern "c"用法解析字数1875 阅读38631 评论4 喜欢20 引言C++保留了一部分过程式语言的特点,因而它可以定义不属于任何类的全局变量和函数。但是,C++毕竟是一种面向对象的程序设计语言,为了支持函数的重载,C++对全局函数的处理方式与C有明显的不同。extern "C"的主要作用就是为了能够正确实现C++代码调用其他C语言代码。加上extern "C

2016-09-25 08:21:25 200

转载 Linux下c和cuda混合编译,并生成动态链接库.so和使用

Linux下c和cuda混合编译,并生成动态链接库.so和使用2016-08-27 14:27 98人阅读 评论(0)收藏举报分类: Linux 版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]梗概如果要生成动态链接库,就需要把源码,无论是.c .cpp .cu还是其他的语言写的程序,都通过

2016-09-25 08:19:35 1303

转载 C与CUDA混合编程的配置问题

C与CUDA混合编程的配置问题2015-10-05 19:58 526人阅读 评论(2)收藏举报分类: CUDA(6) 目录(?)[+]原文: http://blog.csdn.net/u012234115/article/details/34860273在做项目集成的时候需要用到cpp和cuda文件联

2016-09-25 08:17:48 2305 1

转载 cuda、库命令

1008  nvidia-smi  1009  ls -ltr 1010  vi mig.cu 1011* nvcc mig.cu -o a -lm 1012  clear 1013  ls 1014  nvcc mig.cu *.o -o a -lm 1015  gcc -shared -o cc.so *.c 1016  gfortran -shared -o

2016-09-20 09:49:06 953

转载 CUDA: GPU高性能运算

CUDA: GPU高性能运算2013-10-11 22:23 5650人阅读 评论(0)收藏举报分类: CUDA(106) 目录(?)[+]0 序言CUDA是异构编程的一个大头,洋洋洒洒的看了些资料,但是,感觉这个技术没有像C++或者Java那样有自己的权威的《编程思想》来指导系统学习,总是感觉心里不踏实,是不是自己还

2016-09-16 14:35:53 6273

转载 并发和并行的区别

并发和并行的区别 2012-01-07 16:30:51标签:操作系统并发 并行 并发与并行区别 休闲    所有的并发处理都有排队等候,唤醒,执行至少三个这样的步骤.所以并发肯定是宏观概念,在微观上他们都是序列被处理的,只不过资源不会在某一个上被阻塞(一般是通过时间片轮转),所以在宏观上看多个几乎同时到达的请求同时在被处理。如果是同一时刻到达的请求也会根据优先级的

2016-09-16 09:25:14 287

转载 cuda初步认识

特此声明:这个内容我是转别人的我只摘录一些我需要的东西,若是想看原文的,请点击下面的链接原文:http://hi.baidu.com/coolrainbow/item/de05efc83151671a50505878   1 硬件架构CUDA编程中,习惯称CPU为Host,GPU为Device。  2 并行模型Thread:并行基本单位Block:相

2016-09-16 09:12:30 320

转载 CUDA从入门到精通(四):加深对设备的认识

CUDA从入门到精通(四):加深对设备的认识2013-07-23 13:17 4211人阅读 评论(2) 收藏 举报 分类:GPU(29) 版权声明:本文为卜居原创文章,未经博主允许不得转载。卜居博客地址:http://blog.csdn.net/kkk584520前面三节已经对CUDA做了一个简单的介绍,这一节开始真正进入编程环节。

2016-09-15 13:45:36 489

转载 CUDA从入门到精通(三):必备资料

CUDA从入门到精通(三):必备资料2013-07-23 09:20 3676人阅读 评论(0) 收藏 举报 分类:GPU(29) 版权声明:本文为卜居原创文章,未经博主允许不得转载。卜居博客地址:http://blog.csdn.net/kkk584520刚入门CUDA,跑过几个官方提供的例程,看了看人家的代码,觉得并不难,但自己动

2016-09-15 13:44:49 296

转载 CUDA从入门到精通(二):第一个CUDA程序

CUDA从入门到精通(二):第一个CUDA程序标签: CUDAGPU2013-07-22 22:50 5175人阅读 评论(2) 收藏 举报 分类:GPU(29) 版权声明:本文为卜居原创文章,未经博主允许不得转载。卜居博客地址:http://blog.csdn.net/kkk584520[cpp] view pl

2016-09-15 13:40:16 413

转载 CUDA从入门到精通(一):环境搭建

CUDA从入门到精通(一):环境搭建2013-07-22 21:54 10527人阅读 评论(9) 收藏 举报 分类:GPU(29) 版权声明:本文为卜居原创文章,未经博主允许不得转载。卜居博客地址:http://blog.csdn.net/kkk584520NVIDIA于2006年推出CUDA(Compute Unified Dev

2016-09-15 13:32:00 280

转载 CUDA从入门到精通(零):写在前面

CUDA从入门到精通(零):写在前面标签: CUDAGPU2013-07-22 21:33 6568人阅读 评论(7) 收藏 举报 分类:GPU(29) 版权声明:本文为卜居原创文章,未经博主允许不得转载。卜居博客地址:http://blog.csdn.net/kkk584520在老板的要求下,本博主从2012年上高性能计算课程开

2016-09-15 13:27:09 239

转载 CUDA从入门到精通

CUDA从入门到精通2013-10-17 11:22 35712人阅读 评论(17) 收藏 举报 分类:CUDA(106) CUDA从入门到精通(零):写在前面在老板的要求下,本博主从2012年上高性能计算课程开始接触CUDA编程,随后将该技术应用到了实际项目中,使处理程序加速超过1K,可见基于图形显示器的并行计算对于追求速度的应用来说无

2016-09-15 13:26:26 533

转载 GPU资源分配

GPU的计算核心是以一定数量的Streaming Processor(SP)组成的处理器阵列,NV称之为Texture Processing Clusters(TPC),每个TPC中又包含一定数量的Streaming Multi-Processor(SM),每个SM包含8个SP。SP的主要结构为一个ALU(逻辑运算单元),一个FPU(浮点运算单元)以及一个Register File(寄存器堆)。S

2016-09-15 12:51:45 3554

转载 cuda-Block和Grid设定

CUDA的Threading:Block和Grid设定硬件基本架构  实际上在 nVidia 的 GPU 里,最基本的处理单元是所谓的 SP(Streaming Processor),而一颗 nVidia 的 GPU 里,会有非常多的 SP 可以同时做计算;而数个 SP 会在附加一些其他单元,一起组成一个 SM(Streaming Multiprocessor)。几个 SM 则会在组成所谓

2016-09-15 10:21:34 7613

转载 cuda

PS:这篇博客出自我的一个同学的手中,写的很好,是CUDA入门的好博客,因此才从他的博客中复制过来(复制改版也是个力气活~),大家也可以查看他博客中其它的文章,涉猎很广,从语言到开源包。此外,他是做推荐系统的,如果有关于推荐系统的问题也可以在博客给他留言~!——————————————————正文——————————————————————         鉴于自己的毕设需要使用GPU C

2016-09-15 09:52:11 878

转载 最优的cuda线程配置

最优的cuda线程配置1 每个SM上面失少要有192个激活线程,寄存器写后读的数据依赖才能被掩盖 2 将 寄存器 的bank冲突降到最低,应尽量使每个block含有的线程数是64的倍数 3 block的数量应设置得令可用的计算资源被充分的利用。由于每个block映射到一个sm上面,所以至少应该让block的数目跟sm的数目一样多。 4 当Block中的线程被同步时或

2016-09-15 09:25:29 492

转载 /etc/ld.so.conf.d/目录下文件的作用

/etc/ld.so.conf.d/目录下文件的作用2013-04-30 10:58 5835人阅读 评论(0)收藏举报分类: Linux/Unix系统管理(51) 版权声明:本文为博主原创文章,未经博主允许不得转载。在了解/etc/ld.so.conf.d/目录下文件的作用之前,先介绍下程序运行是加载动态库的几种方法:

2016-09-13 09:26:56 1033

转载 CUDA函数库调用问题解决

CUDA函数库调用问题解决2013-09-26 13:59 2567人阅读 评论(0)收藏举报分类: cuda(18) C(26) 版权声明:本文为博主原创文章,未经博主允许不得转载。问题:装好CUDA5.5, samples也安装成功,编译也成功了,但是在运行程序的时候出问题了。譬如进入NVIDIA_CUDA-5

2016-09-13 09:25:00 1252

转载 UEFI主板GPT方式安装CentOS 6.4

UEFI主板GPT方式安装CentOS 6.4发布者:zsl530   来源:互联网   发布日期:2014年07月02日   Linux学习交流群:207858983  一、UEFI主板上OS启动原理  自己粗略画了一张图,不再文字说明。    U盘安装64位CentOS 6.5方法  Win7安装64位CentOS 6.4双系统详细图文教程 

2016-09-12 14:52:51 1212

转载 UEFI+GPT安装Windows8和CentOS双系统

UEFI+GPT安装Windows8和CentOS双系统[日期:2014-05-11]来源:Linux社区  作者:smstong[字体:大 中 小]随着虚拟机管理软件的广泛使用,双系统安装场合越来越少了,但还存在这样的地方,尤其是学习一些硬件的场合。本文针对UEFI时代的双系统安装进行了实验和说明。前一篇文章已经对U

2016-09-12 14:30:01 1199

转载 legacy bios与uefi两种模式安装windows8操作系统的方法

在Legacy BIOS与UEFI 两种模式安装Windows 8操作系统的方法作者:佚名 字体:[增加 减小] 来源:互联网 时间:01-10 16:18:23 我要评论不是所有WIN8都可以安装在UEFI模式下,即使你的BIOS是UEFI BIOS,有时也会无法安装,这是因为它与硬盘的分区结构、WIN 8是32位还是64位有关Win8系统相对于W

2016-09-12 13:42:44 1870

ucoss中os-tmr.c中的代码分析

ucos ii 操作系统定时器的使用方法

2017-07-21

linux源的livecd、livedvd、dvd1、dvd2的区别

linux源的livecd、livedvd、dvd1、dvd2的区别

2016-04-28

C语言编译全过程

C语言编译全过程

2015-09-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除