自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

吴建明wujianming_110117

吴建明专业博客wujianming_110117

  • 博客(866)
  • 问答 (8)
  • 收藏
  • 关注

原创 runtime系统的Cello

runtime系统的Cello通过充当一个现代的、功能强大的runtime系统,Cello使许多以前在C中不切实际或笨拙的事情变得简单,例如:通用数据结构多态函数接口/类型类构造函数/析构函数可选垃圾回收例外情况反思而且,由于Cello与标准C无缝地协同工作,所以您可以获得其他所有的好处,例如出色的性能、强大的工具和广泛的库。https://github.com/orangeduck/CelloExamples#include “Cello.h”int main(int argc

2020-11-28 17:52:18 6

原创 将5g做到世界顶级

将5g做到世界顶级华为最近向中国电信合作伙伴保证,它有足够的库存,可以在2021年之前继续向它们提供5G基站芯片组。在上个月失去对这项技术的使用之前,这家公司囤积了为其网络设备供电的7nm处理器。由于该地区的无线运营商将花费1700亿美元推出5G,该项目将成为电信的主要收入来源。华为还推出了mate40系列智能手机,这可能是其最后一批顶级手机。华为5G基站半导体库存今年5月,美国商务部宣布,将于今年9月对源自美国的半导体技术实施新的出口管制。台湾半导体制造公司(TSMC)遵守华盛顿的新规定,以避免巨

2020-11-28 17:33:32 28

原创 用户自定义协议client/server代码示例

用户自定义协议client/server代码示例代码参考链接:https://github.com/sogou/workflowmessage.hmessage.ccserver.ccclient.cc关于user_defined_protocol本示例设计一个简单的通信协议,并在协议上构建server和client。server将client发送的消息转换成大写并返回。协议的格式协议消息包含一个4字节的head和一个messagebody。head是一个网络序的整数,指明body的长度

2020-11-28 17:28:50 23

原创 使用TensorRT集成推理inference

使用TensorRT集成推理inference使用TensorRT集成进行推理测试。使用ResNet50模型对每个GPU进行推理,并对其它模型进行性能比较,最后与其它服务器进行比较测试。ResNet-50 Inferenceperformance: Throughput vs Batch size在每个GPU上使用不同的批处理大小(从1到32)运行带有预训练的ResNet50模型的吞吐量测试。图1显示了吞吐量(帧/秒)的结果。结果在gpu和潜伏期(在右纵轴上表示)上是一致的。Figu

2020-11-28 09:46:01 22

原创 cuDNN 功能模块解析

cuDNN 功能模块解析Abstract本cuDNN 8.0.4开发人员指南概述了cuDNN功能,如可自定义的数据布局、支持灵活的dimension ordering,striding,4D张量的子区域,这些张量用作其所有例程的输入和输出。这种灵活性可简单集成到任何神经网络实现中。要访问cuDNN API参考,请参阅cuDNNAPI参考指南。https://docs.nvidia.com/deeplearning/cudnn/api/index.html有关先前发布的cuDNN开发人员文档,请参

2020-11-28 08:58:14 24

原创 TVM源码框架安装方法

TVM源码框架安装方法本文提供如何在各种系统上从零构建和安装TVM包的说明。它包括两个步骤: 首先从C++代码中构建共享库(linux的libtvm.so,macOS的libtvm.dylib和windows的libtvm.dll)。编程语言包的设置(例如Python包)。实现,请从下载页面下载tvm源代码。https://tvm.apache.org/downloadDevelopers: Get Source fromGithub还可以选择从github 上clo

2020-11-28 07:11:44 24

原创 在OpenShift平台上验证NVIDIA DGX系统的分布式多节点自动驾驶AI训练

在OpenShift平台上验证NVIDIADGX系统的分布式多节点自动驾驶AI训练自动驾驶汽车的深度神经网络(DNN)开发是一项艰巨的工作。本文验证了DGX多节点,多GPU,分布式训练在DXC机器人驱动环境中运行。还使用了一个机器人学习平台来驱动深度学习(11.3)的工作负载。目前,OpenShift 3.11已部署在许多大型GPU加速的自动驾驶(AD)开发和测试环境中。这里显示的方法同样适用于新的OpenShift版本,并且可以转移到其他基于OpenShift的集群中。DXC Robotic Dr

2020-11-23 09:04:51 57

原创 NVIDIA DRIVE AGX开发工具包

NVIDIA DRIVE AGX开发工具包英伟达自动驾驶™ AGX开发工具包提供了开发生产级自主车辆(AV)所需的硬件、软件和示例应用程序。NVIDIA DRIVE AGX系统建立在汽车产品级芯片上,具有开放的软件框架,并拥有大量汽车合作伙伴(包括产品级传感器供应商、汽车1级供应商)可供选择。DetailsDRIVE AGX Hardware OptionsDRIVE AGX Xavier™ Developer Kit (SKU 2000):Includes two Xavier Systems-

2020-11-23 08:14:57 51

原创 大数据目标检测推理管道部署

大数据目标检测推理管道部署本文提供了一个用于对象检测的深度学习推理的概述。自主车辆软件开发需要大规模的数据、计算和算法创新,这些都是gpu实现的。一组神经网络构成了感知和决策系统的基础。神经网络的性能与数据量成比例地增加,并且需要基础设施来支持大规模的训练和推理。为了使自动驾驶汽车(AV)达到可接受的安全水平,他们必须接受大量真实驾驶数据的训练,这些数据包括汽车每天可能遇到的各种情况。这些训练场景由安装有多个传感器的车队收集,每天行驶小时,产生数PB的数据。这些数据必须加以标注和处理,以便进行全面的A

2020-11-23 07:49:41 46 1

原创 使用NVIDIA GRID vPC支持视频会议和算力工具

使用NVIDIA GRID vPC支持视频会议和算力工具随着2020年的发展,远程工作解决方案已成为许多人的新常态。企业正在寻找行之有效的解决方案,如虚拟桌面基础设施(VDI),以使他们的团队能够在任何地方安全地工作。然而,最新的算力和视频会议应用程序需要更强大的台式机来确保良好的用户体验。借助NVIDIA GRID vPC,它可以经济高效地将虚拟化扩展到每个员工,其性能可与物理PC相媲美。基于NVIDIA vGPU技术的GRID vPC能够跨多个虚拟机(VM)共享同一个GPU,为知识型员工提供本机PC

2020-11-21 12:04:51 106

原创 使用NVIDIA A100 TF32获得即时加速

使用NVIDIA A100 TF32获得即时加速NVIDIA A100带来了我们公司历史上最大的单代性能增长。这是一个新的结构创新,这是一个多功能的支持,这是一个多功能的结构支持。TF32是用于深度学习训练的绝佳精度,因为它结合了FP32的范围和FP16的精度,与上一代的FP32精度相比,可提供高达5倍的加速。在这篇文章中,将简要介绍TF32的内部工作原理,并讨论显示其在一系列使用和网络中的影响的性能数据。TF32 at a glance浮点数据表示十进制数,如硬件中使用符号位(正数或负数)、指数(小

2020-11-21 11:25:34 45

原创 使用PCAST检测散度以比较GPU和CPU结果

使用PCAST检测散度以比较GPU和CPU结果并行编译器辅助软件测试(PCAST)是英伟达HPC FORTRAN、C++和C编译器中的一个特性。PCAST有两个用例。一个新的处理器或新的编译程序的部分或新的时间标志首先被编译。您可能需要测试新库是否会产生相同的结果,或者测试添加OpenMP并行、启用自动矢量化(-Mvect=simd)或从X86系统移植到OpenPOWER或Arm的安全性。这个用例的工作原理是在需要比较中间结果的地方向应用程序添加pcast_compare调用或compare指令。在初始运

2020-11-21 10:54:25 32

原创 用NVIDIA NsightcComputeRoofline分析加速高性能HPC的应用

用NVIDIA NsightcComputeRoofline分析加速高性能HPC的应用编写高性能的软件不是一件简单的任务。当有了可以编译和运行的代码之后,当您尝试并理解它在可用硬件上的执行情况时,将引入一个新的挑战。不同的平台,无论是cpu、gpu还是其他平台,都会有不同的硬件限制,比如可用内存带宽和理论计算限制。Roofline性能模型帮助您了解应用程序使用可用硬件资源的情况,以及哪些资源可能会限制应用程序的性能。在劳伦斯伯克利国家实验室,国家能源研究科学计算中心(NERSC)和计算研究部(CRD)一直

2020-11-21 09:11:57 33

原创 Pipe Utilization管道利用率

Pipe Utilization管道利用率概述CUDA设备的每个流式多处理器(SM)都具有许多专门用于执行特定任务的硬件单元。在芯片级,这些单元提供执行管道,翘曲调度程序将指令发送到这些管道。例如,结构单元提供执行结构获取和执行结构过滤的功能。加载/存储单元获取数据并将其保存到内存中。了解这些管道的利用率并了解它们与目标设备的峰值性能有多接近,是分析内核执行效率的关键信息;还可以确定由于超标订购特定类型的管道而导致的性能瓶颈。背景开普勒GK110白皮书和NVIDIA GeForce GTX 680白

2020-11-10 07:57:36 32

原创 Nsight Compute Profilier 分析

Nsight Compute Profilier 分析profiler报告包含每次内核启动分析期间收集的所有信息。在用户界面中,它包含一个包含常规信息的标题,以及用于在报告页面或单个收集的启动之间切换的控件。默认情况下,报告以选定的详细信息页面开始。页眉页面下拉列表可用于在可用报告页面之间切换,下一节将对此进行详细说明。探查器报告标头Launch下拉列表可用于在所有收集的内核启动之间切换。每个页面中显示的信息通常表示选定的启动实例。在某些页面(例如Raw),显示所有启动的信息,并突出显示所选实例。

2020-11-08 18:01:59 31

原创 NSight Compute 用户手册(下)

NSight Compute 用户手册(下)主菜单文件新建项目使用“新建项目”对话框创建新的分析项目Main Menu and ToolbarInformation on the main menu and toolbar.Main MenuFileNew Project Create new profiling Projectswith the New Project DialogOpen Project Open an existing profilingprojectRe

2020-11-08 17:37:02 24

原创 NSight Compute 用户手册(中)

NSight Compute 用户手册(中)NVIDIA Nsight Compute支持密码和私钥身份验证方法。在此对话框中,选择身份验证方法并输入以下信息:密码IP/主机名:目标设备的IP地址或主机名。用户名:用于SSH连接的用户名。Password:用于SSH连接的用户密码。端口:用于SSH连接的端口。(默认值为22。)部署目录:目标设备上用于部署支持文件的目录。指定的用户必须对此位置具有写入权限。私钥IP/主机名:目标设备的IP地址或主机名。用户名:用于SSH连接的用户名。S

2020-11-08 17:18:15 31

原创 NSight Compute 用户手册(上)

NSight Compute 用户手册(上)非交互式配置文件活动从NVIDIA Nsight Compute启动目标应用程序启动NVIDIA Nsight Compute时,将出现欢迎页面。单击快速启动打开连接对话框。如果未显示“连接”对话框,则可以使用主工具栏上的“连接”按钮打开它,只要当前未连接。从Connection下拉列表中选择左侧的目标平台和本地主机。然后,填写launch details并选择launch。在“活动”面板中,选择“概要文件”活动以启动预配置概要文件会话的会话,并启动命令行探

2020-11-08 16:55:52 33

原创 NVIDIA Nsight Systems CUDA 跟踪

NVIDIA Nsight Systems CUDA 跟踪CUDA跟踪NVIDIA Nsight Systems能够捕获有关在概要过程中执行CUDA的信息。可以在报告的时间轴上收集和呈现以下信息:CUDAAPI跟踪-跟踪应用程序进行的CUDA运行时和CUDA驱动程序调用。CUDA运行时调用通常以CUDA前缀开始(例如,cudaLaunch)。CUDA驱动程序调用通常以cu前缀开始(例如,cuDeviceGetCount)。跟踪主机上发生的操作(例如,对内存的跟踪)和对内存执行的拷贝。在使用CU

2020-11-08 09:32:26 40

原创 TensorRT Analysis Report分析报告

TensorRT Analysis Report一.介绍TensorRT是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应用提供低延迟、高吞吐率的部署推理。TensorRT可用于对超大规模数据中心、嵌入式平台或自动驾驶平台进行推理加速。TensorRT现已能支持Tensorflow、Caffe、Mxnet、Pytorch等几乎所有的深度学习框架,将TensorRT和NVIDIA的GPU结合起来,能在几乎所有的框架中进行快速和高效的部署推理。TensorRT 是一个C++库,从 T

2020-11-06 13:40:57 59

原创 基于TensorRT优化的Machine Translation

基于TensorRT优化的Machine Translation机器翻译系统用于将文本从一种语言翻译成另一种语言。递归神经网络(RNN)是机器翻译中最流行的深度学习解决方案之一。TensorRT机器翻译示例的一些示例包括:Neural Machine Translation (NMT) Using A Sequence To Sequence (seq2seq) Model Building An RNN Network Layer By Layer4.1. Neural Machine Trans

2020-11-04 08:50:52 32

原创 用TensorRT针对AArch64用户的交叉编译示例

用TensorRT针对AArch64用户的交叉编译示例以下介绍如何在x86_64linux下为AArch64 QNX和Linux平台交叉编译TensorRT示例。2.1. Prerequisites本节提供分步说明,以确保满足交叉编译的最低要求。Procedure为对应的目标安装CUDA跨平台工具包,并设置环境变量CUDA_INSTALL_DIR。$ export CUDA_INSTALL_DIR=“your cuda install dir”Where CUDA_INSTALL_DIR

2020-11-04 08:19:25 293

原创 Recommenders with TensorRT

Recommenders with TensorRT推荐系统用于向社交网络、媒体内容消费和电子商务平台的用户提供产品或媒体推荐。基于MLP的神经协作滤波器(NCF)推荐器使用一组完全连接或矩阵乘法层来生成推荐。 TensorRT推荐人示例的一些示例包括:Movie Recommendation Using Neural Collaborative Filter (NCF)Movie Recommendation Using MPS (Multi-Process Service

2020-11-04 08:01:09 56

原创 Technology Document Guide of TensorRT

Technology Document Guide of TensorRTAbstract本示例支持指南概述了GitHub和产品包中包含的所有受支持的TensorRT 7.2.1示例。TensorRT示例在推荐程序、机器翻译、字符识别、图像分类和对象检测等领域有特殊帮助。 有关TensorRT开发文档,请参阅TensorRT归档文件。Introduction下面的示例展示了如何在许多用例中使用TensorRT,同时突出显示接口的不同功能。1.1. Getti

2020-11-04 06:50:48 59

原创 Python API vs C++ API of TensorRT

Python API vs C++ API of TensorRT本质上,C++ API和PythonAPI应该在支持您的需求方面接近相同。pythonapi的主要优点是数据预处理和后处理都很容易使用,因为您可以使用各种库,如NumPy和SciPy。在安全性很重要的情况下,例如,在汽车中,C++ API应该被使用。有关C++ API的更多信息,请参见使用C++ API。有关如何使用Python优化性能的更多信息,请参阅how Do I optimize My Python performance?来

2020-11-03 16:10:33 80 1

原创 TensorRT PoolingLayer

TensorRT PoolingLayerIPoolingLayer在通道中实现池。支持的池类型有maximum、average和maximum average混合。Layer Description: 2D pooling层描述:二维池用2D滤波器计算a维张量a上的池,生成B维的张量B。B的维数取决于a的维数、窗口大小r、对称填充p和步长s,因此:PoolingType::kMAXMaximum over elements in window.PoolingType::kAVERAGEAv

2020-11-03 13:53:04 49

原创 TensorRT IRNNv2Layer

TensorRT IRNNv2LayerIRNNv2Layer层实现递归层,如递归神经网络(RNN)、门控递归单元(GRU)和长短期记忆(LSTM)。支持的类型有RNN、GRU和LSTM。它执行一个递归操作,其中操作由几个著名的递归神经网络(RNN)“单元”之一定义。图层说明该层接受输入序列X,初始隐藏状态H0,如果该单元是长短期存储器(LSTM)单元,则为初始单元状态C0,并产生一个输出Y,该输出Y表示跨T个时间步计算的最终RNN“子层”的输出(见下文)。可选地,该层还可以产生表示最终隐藏状态的输出

2020-11-03 13:34:00 74

原创 NVIDIA® TensorRT™ supports different data formats

NVIDIA® TensorRT™ supports different data formatsNVIDIA®TensorRT公司™ 支持不同的数据格式。需要考虑两个方面:数据类型和布局。 数据类型格式数据类型是每个单独值的表示。它的大小决定了值的范围和表示的精度;它们是FP32(32位浮点或单精度)、FP16(16位浮点或半精度)、INT32(32位整数表示)和INT8(8位表示)。布局格式布局格式决定了存储值的顺序。通常,批处理维度是最左边的维度,其他维度是指图像中每

2020-11-03 12:59:35 53

原创 TensorRT 7.2.1 开发概要(下)

TensorRT 7.2.1 开发概要(下)1.2. Where Does TensorRT Fit?一般来说,开发和部署深度学习模型的工作流要经过三个阶段。Phase 1 is trainingPhase 2 is developing a deployment solution, andPhase 3 is the deployment of that solutionPhase 1: Training在训练阶段,数据科学家和开发人员将首先陈述他们想要解决的问题,然后决定他们将使用的精确输

2020-11-03 11:47:11 93 1

原创 TensorRT 7.2.1 开发概要(上)

TensorRT 7.2.1 开发概要(上)Abstract这个TysRR7.2.1开发者指南演示了如何使用C++和Python API来实现最常用的深层学习层。它展示了如何使用深度学习框架构建现有模型,并使用该模型使用提供的解析器构建一个TensorRT引擎。开发指南还提供了常见用户任务的分步指令,例如创建TensorRT网络定义、调用TensorRT builder、序列化和反序列化,以及如何用数据给引擎提供数据并执行推理;同时使用C++或Python API。有关先前发布的TensorRT开发人

2020-11-03 11:06:28 73

原创 基于TensorRT的BERT实时自然语言理解(下)

基于TensorRT的BERT实时自然语言理解(下)BERT Inference with TensorRT请参阅Python脚本bert_inference.py还有详细的Jupyter notebook BERT_TRT.ipynb在sample文件夹中进行推理过程的逐步描述和演练。在本节中,让我们回顾几个关键参数和概念,以便使用TensorRT进行推理。BERT(更具体地说是编码器层)使用以下参数来控制其操作:Batch sizeSequence LengthNumber of

2020-11-03 09:29:00 259

原创 基于TensorRT的BERT实时自然语言理解(上)

基于TensorRT的BERT实时自然语言理解(上)大规模语言模型(LSLMs)如BERT、GPT-2和XL-Net为许多自然语言理解(NLU)任务带来了最先进的精准飞跃。自2018年10月发布以来,BERT1(来自Transformer的双向编码器表示)仍然是最流行的语言模型之一,并且在编写时仍能提供最先进的精准。BERT为NLU任务的准确性提供了一个飞跃,使得基于语言的高质量服务在许多行业的公司都能达到。要在生产中使用模型,除了精准之外,还需要考虑延迟等因素,这些因素会影响最终用户对服务的满意度。由

2020-11-03 08:45:28 86 1

原创 NVIDIA TensorRT高性能深度学习推理

NVIDIA TensorRT高性能深度学习推理NVIDIA TensorRT™是用于高性能深度学习推理的 SDK。此 SDK 包含深度学习推理优化器和运行时环境,可为深度学习推理应用提供低延迟和高吞吐量。在推理过程中,基于 TensorRT 的应用程序的执行速度可比 CPU 平台的速度快 40 倍。借助 TensorRT,您可以优化在所有主要框架中训练的神经网络模型,精确校正低精度,并最终将模型部署到超大规模数据中心、嵌入式或汽车产品平台中。TensorRT 以 NVIDIA 的并行编程模型 C

2020-11-03 06:53:58 103

原创 GPU端到端目标检测YOLOV3全过程(下)

GPU端到端目标检测YOLOV3全过程(下)Ubuntu18.04系统下最新版GPU环境配置·安装显卡驱动·安装Cuda 10.0·安装cuDNN1.安装显卡驱动(1)这里采用的是PPA源的安装方式,首先添加GraphicDrivers的PPA源,打开终端输入以下指令代码(添加PPA源并更新):sudo add-apt-repository ppa:graphics-drivers/ppasudo apt-get update(2)使用命令行自动查看合适的驱动版本,系统会自动查找并给

2020-10-21 08:20:38 88 1

原创 GPU端到端目标检测YOLOV3全过程(中)

GPU端到端目标检测YOLOV3全过程(中)计算机视觉初级部分知识体系总结了一下自己在计算机视觉初级部分的知识框架,整理如下。个人所学并不全面(比如图像频域方面了解就比较少),仅做参考。图像点(pixel值)运算直方图;2. 线性/非线性变换;3. 灰度均衡化/规定化;4. H-S直方图图像几何变换平移、旋转、镜像、缩放(图像金字塔,图像多尺度表达的一种方法,高斯金字塔、拉普拉斯金字塔);2. 仿射变换空间域滤波线性滤波2. 均值滤波、高斯滤波3. 非线性滤波4.

2020-10-21 07:52:38 163 1

原创 GPU端到端目标检测YOLOV3全过程(上)

GPU端到端目标检测YOLOV3全过程(上)Basic Parameters:Video: mp4, webM, aviPicture: jpg, png, gif, bmpText: doc, html, txt, pdf, excelVideo File Size: not morethan 10GBbatch=16, subdivisions=1Resolution: 416 * 416, 320 * 320.Frame: 45f/s with 320 * 320. At 320

2020-10-21 07:06:42 92 1

原创 如何使用Intel vtune profilier?

如何使用Intel vtune profilier?

2020-10-20 14:29:44 60

原创 如何使用Nsight System?

如何使用Nsight System?

2020-10-20 14:23:17 68

原创 如何使用Nsight Compute?

如何使用Nsight_Compute?

2020-10-20 14:09:13 37

原创 Yolov3&Yolov4网络结构与源码分析

Yolov3&Yolov4网络结构与源码分析从2018年Yolov3年提出的两年后,在原作者声名放弃更新Yolo算法后,俄罗斯的Alexey大神扛起了Yolov4的大旗。文章目录论文汇总Yolov3核心基础内容2.1 网络结构可视化2.2 网络结构图2.3 核心基础内容Yolov3相关代码3.1 python代码3.2 C++代码内容3.3 python版本的Tensorrt代码3.4 C++版本的Tensorrt代码Yolov4核心基础内容4.1 网

2020-10-20 13:26:32 164 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除