- 博客(13)
- 收藏
- 关注
原创 Nsight Compute使用方法(心得)
根据上图可基本了解计算和内存占用率情况,根据不同领域的内核代码,占用率有自身的特点(比如大数据kernel的内存占用率会高点,某类深度学习的计算占用率会高点),但是一般情况而言两者进度条相差不大性能较好。根据上图,第一个表格表示每个线程中的寄存器大小最终影响warp占用率的情况,第二个表格表示Block Size引起的warp占用率情况,第三个表格为共享内存的影响情况。(借鉴:矩阵转置时,SM占用率较低,使用共享内存进行矩阵转置的优化后,SM的占用有所提高,性能也更好)
2023-11-07 10:59:44
1444
1
原创 嵌入式设备,如何使用opengl绘图 (Opengl es, glew,EGL, glfw)
编译命令:g++ sar_drawpixels.cpp -lglfw3 -lGL -lXi -lXrandr -lX11 -lXxf86vm -lEGL -lGLESv2 -lGLEW。(glew找到opengl api,egl作为opengl ES和窗口之间的桥梁,使Opengl ES绘制的内容呈现到glfw窗口上显示到屏幕上)(opengl es为opengl嵌入式子集, 只保留opengl高效的接口。opengl es能实现的,opengl也能实现,反之不一定)
2023-09-07 20:49:39
392
1
原创 vs打开时遇到提示:安装过程中无法运行
启动VS提示无法运行,很可能VS正在更新,可以等待几分钟更新完成,再次运行VS。也可以把更新进程结束,进程名:VSIXAutoUpdate.exe。
2023-08-24 08:43:07
925
1
原创 cuda cudaMallocManaged 测试
/1. 开辟内存的不同方法cudaMallocManaged 测试。// 2.开辟内存的不同方法cudaMallocHost。
2023-08-10 18:56:44
234
1
原创 雷达信号处理脉冲压缩算法GPU实现及加速(含完整代码)
展示GPU端完成雷达信号处理脉冲压缩完整算法加速,为探索GPU部署雷达信号处理提供参考。
2023-06-13 13:35:44
829
4
原创 深入分析cufft的batch使用(cufft1d c2c实例代码如下)
【代码】深入分析cufft的batch使用(cufft1d c2c实例代码如下)
2023-04-10 11:40:08
288
原创 ROCm平台简介及使用汇总
ROCm是AMD的一个软件平台,用来加速GPU计算A卡上编程模型使用的是HIP或者OpenCL,而运行环境是ROCmN卡上,编程模型是CUDA,运行环境也是CUDA链接: [https://rocmdocs.amd.com/en/latest/]
2023-04-03 17:22:32
5038
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人