自定义博客皮肤

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Horovod安装和使用

1. 简介 Horovod是TensorFlow、Keras和PyTorch的分布式培训框架。Horovod的目标是使分布式深度学习快速且易于使用。 2. 安装 https://github.com/uber/horovod/blob/master/docs/gpus.md 安装NCCL ...

2019-03-29 17:32:00

阅读数 2087

评论数 0

TensorFlow GPU版源码编译安装

前提:已安装CUDA,cuDNN,NCCL,bazel 1. configure [user1@node1 tensorflow-1.12.0]$ ./configure Please specify the location of python. [Default is /usr/bin/...

2019-03-29 17:18:30

阅读数 99

评论数 0

数据库中几个常用算法的GPU并行化设计

1. Select 2. Sub aggregation 并行对key1进行排序; flag标记:key1的值与上一个值不同时标记为1,相同标记为0; 根据flag的值计算前缀和presum; 根据flag、下标、presum计算出每个sub区域的开始位置,offset; 根据...

2018-11-16 14:55:30

阅读数 313

评论数 0

高性能计算知识汇总

高​性​能​计​算各方面知识汇总​:​高​性​能​计​算​中​用​到​的​测​试​程​序​、​存​储​系​统​、​网​络​系​统​、​集​群​管​理​系​统​、​并​行​开​发​环​境​、​并​行​开​发​策​略​、​容​错​等

2016-01-26 12:54:30

阅读数 1297

评论数 0

利用高性能计算加速深度学习算法

深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。深度学习典型应用为图像识别和语音识别。GPU正在以大大超过摩尔定律的速度高速发展(大约每隔半年 GPU 的性能增加一倍),远远超过了CPU 的发展速度。GPU加...

2015-10-28 14:17:57

阅读数 10765

评论数 1

CPU+GPU集群计算中的一种动态负载均衡设计方法

目前,随着高性能计算应用软件的发展,应用对计算性能的需求越来越高,越来越多的高性能计算应用软件采用的是CPU与GPU异构协同计算的计算模式,即在传统的多核CPU架构基础上扩展GPU架构处理器,组成CPU和GPU混合的架构平台,基于该架构平台设计相应的软件解决方案,使得CPU与GPU能够有效的进行协...

2015-10-14 13:23:59

阅读数 2559

评论数 1

算法、应用与计算平台,讯飞百度阿里360的深度学习经

算法、应用与计算平台,讯飞百度阿里360的深度学习经 本文来自:http://m.csdn.net/article/2015-09-25/2825806?from=timeline&isappinstalled=0 当前人工智能领域最热门的技术,无疑是大数据+深度学习。实验...

2015-09-29 15:39:32

阅读数 1459

评论数 2

HPC技术趋势:HPDA、深度学习、软件定义和机柜即HPC

HPC技术趋势:HPDA、深度学习、软件定义和机柜即HPC 本文来自:http://m.csdn.net/article/2015-09-28/2825813?from=timeline&isappinstalled=0 百度首席科学家吴恩达(Andrew Ng)曾经说,深...

2015-09-29 15:36:54

阅读数 1543

评论数 0

NVIDIA CUDA系列视频教程

NVIDIA CUDA开发者系列培训

2015-09-18 14:42:33

阅读数 5823

评论数 0

redhat 6.4安装opencv3.0.0

1. 安装cmake 下载cmake-2.8.12.1.tar.gz 解压cmake tar xvf cmake-2.8.12.1.tar.gz 安装cmake cd cmake-2.8.12.1 ./bootstrap sudo make sudo make install ...

2015-09-11 17:20:02

阅读数 1730

评论数 0

阿里云CTO章文嵩:GPU高性能计算是下一个风口

7月22日首届阿里云分享日×云栖大会北京峰会召开,吸引了海内外2000余名开发者、创业者及生态伙伴参与。 阿里云CTO章文嵩在分享日指出,随着DT时代的到临,高性能数据分析需求开始显现,云上将形成包括高性能计算在内的技术生态。 章文嵩透露,阿里巴巴内部早期上线了33个GPU线上应用,进...

2015-09-11 14:03:26

阅读数 969

评论数 0

GPU与MIC对比

属性 NVIDIA GPU Intel MIC 单核 流处理器/CUDA core 每个核运行一个线程 X86 core 每个核上最多支持4个硬件线程 主频 接近1GHz 1.0-1.1GHz ...

2014-09-29 21:02:54

阅读数 5925

评论数 0

快速开发CUDA程序的方法

根据几年的CUDA开发经验,简单的介绍下CUDA程序的大概开发步骤,按照先修改CPU串行程序后移植到GPU平台的原理,把需要在GPU上做的工作尽量先在CPU平台上修改,降低了程序的开发难度,同时有利用bug的调试。通过实现一种快速、有效地CUDA并行程序开发的方法,提高CUDA并行程序开发效率,降...

2014-09-22 18:19:52

阅读数 3444

评论数 1

获取MIC的核数、内存大小

1. 在C/C++代码中获取MIC的核数的方法如下:     #define mic_setup_command "micinfo | grep Active | head -1 | awk ' { print $7 }'"     FILE *fp;    fp = (FIL...

2014-03-27 16:42:44

阅读数 1510

评论数 1

MIC offload.h

Intel编译器include文件夹下有MIC的头文件:offload.h 列举几个常用的函数说明: _Offload_number_of_devices()  //获取MIC数目 _Offload_get_device_number() //获取MIC编号 omp_get...

2014-03-27 16:28:06

阅读数 1828

评论数 3

矩阵按行(列)求和CUDA并行算法设计

通过矩阵按行求和与按列求和两个示例介绍CUDA并行算法设计的思路,希望对大家有所帮助。很多公司招聘CUDA工程师面试时也会考察这个题目。

2013-10-25 09:07:39

阅读数 4840

评论数 2

MIC编程优化(1)——并行度优化

MIC卡包含众多的物理核,同时每个核上可以开启4个线程,因此,程序员只有设计足够多的线程/进程才可以把所有的核利用起来。例如一块60个核的MIC卡上,我们最多可以开启240个线程,最佳线程数一般是每个核设置3个或4个线程

2013-08-15 17:14:11

阅读数 3184

评论数 0

GPU高性能计算与图像处理

CUDA编程语言的推出,使得在GPU平台上的高性能计算应用软件越来越多。目前,CUDA在石油勘测、流体动力学模拟、天文计算、分子动力学仿真、生物计算、图像处理、音频视频编解码、医疗成像、金融、数据库等领域得到广泛的应用,在很多应用中获得2-3个数量级的加速比,极大地提高了性能。

2013-08-14 11:22:47

阅读数 10333

评论数 0

《MIC高性能计算编程指南》矩阵乘法源代码

《MIC高性能计算编程指南》矩阵乘法源代码,有需要的请下载了。 点击打开链接

2013-08-06 09:20:38

阅读数 2264

评论数 0

天河二号横空出世,配4.8万块MIC计算卡

在德国莱比锡举行的2013年国际超级计算大会上,第41期全球超级计算机500强排行榜今天正式公布,中国的天河2号(Tianhe-2)成功登顶。这也是继2010年11月的天河1A夺魁之后,中国重返超算性能世界第一!(不过天河1A这次再次下滑两名,排到了第十) 曾在5月份参观了天河2号系统的TO...

2013-06-20 09:10:41

阅读数 2612

评论数 1

提示
确定要删除当前文章?
取消 删除