自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

吴建明wujianming_110117

吴建明专业博客wujianming_110117

  • 博客(880)
  • 问答 (8)
  • 收藏
  • 关注

原创 Docker Context基本原理

Docker Context基本原理介绍本指南介绍了上下文如何使单个Docker CLI轻松管理多个Swarm集群、多个Kubernetes集群和多个单独的Docker节点。单个Docker CLI可以有多个上下文。每个上下文包含管理不同集群或节点所需的所有端点和安全信息。docker context命令使配置这些上下文和在它们之间切换变得很容易。例如,您公司笔记本电脑上的单个Docker客户端可能配置有两个上下文:dev-k8s和prod swarm。dev-k8s包含用于在开发环境中配置和管理K

2020-12-02 08:55:44 37

原创 Docker Buildx插件

Docker Buildx插件OverviewDocker Buildx是一个CLI插件,它扩展了Docker命令,完全支持Moby BuildKit builder toolkit提供的功能。它提供了与docker build相同的用户体验,并提供了许多新功能,如创建作用域生成器实例和针对多个节点并发构建。安装Docker Buildx包含在Docker19.03中,并与以下Docker Desktop版本捆绑在一起。请注意,必须启用“实验特性”选项才能使用Docker Buildx。Docke

2020-12-02 08:37:50

原创 Docker App应用

Docker App应用这是一个实验特性。实验性功能提供了对未来产品功能的早期访问。这些特性仅用于测试和反馈,因为它们可能在没有警告的情况下在不同版本之间更改,或者可以从将来的版本中完全删除。在生产环境中不得使用实验性功能。Docker不支持实验特性。要在Docker CLI中启用实验性功能,请编辑config.json文件并将“实验”设置为“已启用”。要从Docker桌面菜单启用实验功能,请单击设置(macOS上的首选项)>命令行,然后启用启用启用实验功能切换。单击应用并重新启动。有关D

2020-12-02 08:07:42

原创 Nvidia TensorRT开源软件

TensorRT开源软件此存储库包含NVIDIA TensorRT的开源软件(OSS)组件。其中包括TensorRT插件和解析器(Caffe和ONNX)的源代码,以及演示TensorRT平台使用和功能的示例应用程序。这些开源软件组件是TensorRT General Availability(GA)发行版的一个子集,其中包含一些扩展和错误修复。对于TensorRT OSS的代码贡献,请参阅我们的贡献指南和编码指南。有关TensorRT OSS发行版附带的新添加和更新的摘要,请参阅变更日志。Build

2020-12-02 07:23:43 28

原创 deepstream-开放式实时服务器

deepstream-开放式实时服务器deepstream是一款开源服务器,其灵感来自金融交易技术背后的概念。它允许客户端和后端服务同步数据、发送消息并以非常高的速度和规模规划rpc。参考:https://github.com/deepstreamIO/deepstream.io#getting-starteddeepstream有三个实现runtime实时应用程序开发的核心概念records (realtime document sync)记录是可以操作和观察的无模式、持久化文档。任何更改都会在

2020-12-01 07:48:53 31

原创 GStreamer 1.0 series序列示例

GStreamer 1.0 series序列示例OpenEmbedded layer for GStreamer 1.0这layer层为GStreamer 1.0框架提供了非官方的支持,用于OpenEmbedded/Yocto。它用于GStreamer recipe backports,为早期的OE版本提供对更新GStreamer版本的支持,同时也作为尚未进入OE核心的最新升级(最近发布了一个新的GStreamer版本)。DependenciesURI: git://git.openembedded

2020-12-01 07:26:26 66

原创 H265与ffmpeg改进开发

H265与ffmpeg改进开发IntroductionKSC265是集编码、解码于一体的H.265编解码软件,完全遵循H.265协议标准。符合H.265编码规范的视频都可以通过KSC265进行解码,通过KSC265编码的视频都可以通过遵循H.265协议标准的解码器进行解码。KSC265无任何开源代码依赖,完全自主知识产权,专业的算法团队,在底层架构,汇编指令,算法优化方面持续进行优化,不断迭代,压缩率、编解码效率全面超越x265和openhevc。在2016.8, 编码器V2.1版本,参加世界编码

2020-12-01 06:51:00 9

原创 FFmpeg扩展开发

FFmpeg扩展开发对FFmpeg RTMP/FLV部分做了扩展,用于支持H.265。针对《video_file_format_spec_v10_1》 VIDEODATA部分扩展如下:VIDEODATAThe VideoTagHeader contains video-specific metadata.参考:https://github.com/CDN-Union/H265/tree/master/CodeVideoTagHeader使用说明目录flv265-Kingsoft/FFm

2020-12-01 06:43:29 30

原创 在Yolov5 Yolov4 Yolov3 TensorRT 实现Implementation

在Yolov5 Yolov4 Yolov3 TensorRT实现Implementationnews: yolov5 support引论该项目是nvidia官方yolo-tensorrt的封装实现。你必须有经过训练的yolo模型(.weights)和来自darknet(yolov3&yolov4)的.cfg文件。对于yolov5,需要Pythorch中的模型文件(yolov5s.yaml)和经过训练的权重文件(yolov5s.pt)。参考:https://github.com/enazoe

2020-11-30 09:06:59 44

原创 TensorRT 基于Yolov3的开发

TensorRT 基于Yolov3的开发ModelsDesctensorRTfor Yolov3https://github.com/lewes6369/TensorRT-Yolov3Test EnviromentsUbuntu 16.04TensorRT 5.0.2.6/4.0.1.6CUDA 9.2下载官方模型转换的caffe模型:百度云pwd:gbue谷歌drive如果运行模型是自己训练的,注释“upsample_param”块,并将最后一层的prototxt修改为:Do

2020-11-30 08:45:12 50

原创 大规模数据处理Apache Spark开发

大规模数据处理Apache Spark开发Spark是用于大规模数据处理的统一分析引擎。它提供了Scala、Java、Python和R的高级api,以及一个支持用于数据分析的通用计算图的优化引擎。它还支持一组丰富的高级工具,包括用于SQL和DataFrames的SparkSQL、用于机器学习的MLlib、用于图形处理的GraphX以及用于流处理的结构化流。https://github.com/apache/sparkhttps://spark.apache.org/Online Documenta

2020-11-30 07:47:35 2

原创 算法编程Algos Programming

算法编程Algos Programming不同算法的集合,用于编程比赛,如ACM ICPC。算法按主题划分。大多数算法都可以从文件中按原样运行。每种算法都有一个参考问题,并对其时间和空间复杂度作了一些说明。参考:https://github.com/ADJA/algos算法列表List of algorithms动态(优化,规划)编程Dynamic ProgrammingConvex Hull trick – Convex Hull trick is a geometry based dynam

2020-11-30 07:17:52 57

原创 Timer定时器开发

Timer定时器开发定时器的作用是不占线程的等待一个确定时间,同样通过callback来通知定时器到期。参考:https://github.com/sogou/workflow定时器的创建同样是在WFTaskFactory类里的方法:using timer_callback_t =std::function<void (WFTimerTask*)>;class WFTaskFactory{…static WFTimerTask *create_timer_task(unsig

2020-11-30 06:54:28

原创 matrix_multiply代码解析

matrix_multiply代码解析关于matrix_multiply程序执行代码里两个矩阵的乘法,并将相乘结果打印在屏幕上。示例的主要目的是展现怎么实现一个自定义CPU计算任务。参考:https://github.com/sogou/workflow示例代码https://github.com/sogou/workflow/blob/master/tutorial/tutorial-08-matrix_multiply.cc定义计算任务定义计算任务需要提供3个基本信息,分别为INPUT,

2020-11-30 06:43:58 12

原创 runtime系统的Cello

runtime系统的Cello通过充当一个现代的、功能强大的runtime系统,Cello使许多以前在C中不切实际或笨拙的事情变得简单,例如:通用数据结构多态函数接口/类型类构造函数/析构函数可选垃圾回收例外情况反思而且,由于Cello与标准C无缝地协同工作,所以您可以获得其他所有的好处,例如出色的性能、强大的工具和广泛的库。https://github.com/orangeduck/CelloExamples#include “Cello.h”int main(int argc

2020-11-28 17:52:18 11

原创 将5g做到世界顶级

将5g做到世界顶级华为最近向中国电信合作伙伴保证,它有足够的库存,可以在2021年之前继续向它们提供5G基站芯片组。在上个月失去对这项技术的使用之前,这家公司囤积了为其网络设备供电的7nm处理器。由于该地区的无线运营商将花费1700亿美元推出5G,该项目将成为电信的主要收入来源。华为还推出了mate40系列智能手机,这可能是其最后一批顶级手机。华为5G基站半导体库存今年5月,美国商务部宣布,将于今年9月对源自美国的半导体技术实施新的出口管制。台湾半导体制造公司(TSMC)遵守华盛顿的新规定,以避免巨

2020-11-28 17:33:32 1810 2

原创 用户自定义协议client/server代码示例

用户自定义协议client/server代码示例代码参考链接:https://github.com/sogou/workflowmessage.hmessage.ccserver.ccclient.cc关于user_defined_protocol本示例设计一个简单的通信协议,并在协议上构建server和client。server将client发送的消息转换成大写并返回。协议的格式协议消息包含一个4字节的head和一个messagebody。head是一个网络序的整数,指明body的长度

2020-11-28 17:28:50 32

原创 使用TensorRT集成推理inference

使用TensorRT集成推理inference使用TensorRT集成进行推理测试。使用ResNet50模型对每个GPU进行推理,并对其它模型进行性能比较,最后与其它服务器进行比较测试。ResNet-50 Inferenceperformance: Throughput vs Batch size在每个GPU上使用不同的批处理大小(从1到32)运行带有预训练的ResNet50模型的吞吐量测试。图1显示了吞吐量(帧/秒)的结果。结果在gpu和潜伏期(在右纵轴上表示)上是一致的。Figu

2020-11-28 09:46:01 38

原创 cuDNN 功能模块解析

cuDNN 功能模块解析Abstract本cuDNN 8.0.4开发人员指南概述了cuDNN功能,如可自定义的数据布局、支持灵活的dimension ordering,striding,4D张量的子区域,这些张量用作其所有例程的输入和输出。这种灵活性可简单集成到任何神经网络实现中。要访问cuDNN API参考,请参阅cuDNNAPI参考指南。https://docs.nvidia.com/deeplearning/cudnn/api/index.html有关先前发布的cuDNN开发人员文档,请参

2020-11-28 08:58:14 34

原创 TVM源码框架安装方法

TVM源码框架安装方法本文提供如何在各种系统上从零构建和安装TVM包的说明。它包括两个步骤: 首先从C++代码中构建共享库(linux的libtvm.so,macOS的libtvm.dylib和windows的libtvm.dll)。编程语言包的设置(例如Python包)。实现,请从下载页面下载tvm源代码。https://tvm.apache.org/downloadDevelopers: Get Source fromGithub还可以选择从github 上clo

2020-11-28 07:11:44 35

原创 在OpenShift平台上验证NVIDIA DGX系统的分布式多节点自动驾驶AI训练

在OpenShift平台上验证NVIDIADGX系统的分布式多节点自动驾驶AI训练自动驾驶汽车的深度神经网络(DNN)开发是一项艰巨的工作。本文验证了DGX多节点,多GPU,分布式训练在DXC机器人驱动环境中运行。还使用了一个机器人学习平台来驱动深度学习(11.3)的工作负载。目前,OpenShift 3.11已部署在许多大型GPU加速的自动驾驶(AD)开发和测试环境中。这里显示的方法同样适用于新的OpenShift版本,并且可以转移到其他基于OpenShift的集群中。DXC Robotic Dr

2020-11-23 09:04:51 57

原创 NVIDIA DRIVE AGX开发工具包

NVIDIA DRIVE AGX开发工具包英伟达自动驾驶™ AGX开发工具包提供了开发生产级自主车辆(AV)所需的硬件、软件和示例应用程序。NVIDIA DRIVE AGX系统建立在汽车产品级芯片上,具有开放的软件框架,并拥有大量汽车合作伙伴(包括产品级传感器供应商、汽车1级供应商)可供选择。DetailsDRIVE AGX Hardware OptionsDRIVE AGX Xavier™ Developer Kit (SKU 2000):Includes two Xavier Systems-

2020-11-23 08:14:57 59

原创 大数据目标检测推理管道部署

大数据目标检测推理管道部署本文提供了一个用于对象检测的深度学习推理的概述。自主车辆软件开发需要大规模的数据、计算和算法创新,这些都是gpu实现的。一组神经网络构成了感知和决策系统的基础。神经网络的性能与数据量成比例地增加,并且需要基础设施来支持大规模的训练和推理。为了使自动驾驶汽车(AV)达到可接受的安全水平,他们必须接受大量真实驾驶数据的训练,这些数据包括汽车每天可能遇到的各种情况。这些训练场景由安装有多个传感器的车队收集,每天行驶小时,产生数PB的数据。这些数据必须加以标注和处理,以便进行全面的A

2020-11-23 07:49:41 51 1

原创 使用NVIDIA GRID vPC支持视频会议和算力工具

使用NVIDIA GRID vPC支持视频会议和算力工具随着2020年的发展,远程工作解决方案已成为许多人的新常态。企业正在寻找行之有效的解决方案,如虚拟桌面基础设施(VDI),以使他们的团队能够在任何地方安全地工作。然而,最新的算力和视频会议应用程序需要更强大的台式机来确保良好的用户体验。借助NVIDIA GRID vPC,它可以经济高效地将虚拟化扩展到每个员工,其性能可与物理PC相媲美。基于NVIDIA vGPU技术的GRID vPC能够跨多个虚拟机(VM)共享同一个GPU,为知识型员工提供本机PC

2020-11-21 12:04:51 127

原创 使用NVIDIA A100 TF32获得即时加速

使用NVIDIA A100 TF32获得即时加速NVIDIA A100带来了我们公司历史上最大的单代性能增长。这是一个新的结构创新,这是一个多功能的支持,这是一个多功能的结构支持。TF32是用于深度学习训练的绝佳精度,因为它结合了FP32的范围和FP16的精度,与上一代的FP32精度相比,可提供高达5倍的加速。在这篇文章中,将简要介绍TF32的内部工作原理,并讨论显示其在一系列使用和网络中的影响的性能数据。TF32 at a glance浮点数据表示十进制数,如硬件中使用符号位(正数或负数)、指数(小

2020-11-21 11:25:34 47

原创 使用PCAST检测散度以比较GPU和CPU结果

使用PCAST检测散度以比较GPU和CPU结果并行编译器辅助软件测试(PCAST)是英伟达HPC FORTRAN、C++和C编译器中的一个特性。PCAST有两个用例。一个新的处理器或新的编译程序的部分或新的时间标志首先被编译。您可能需要测试新库是否会产生相同的结果,或者测试添加OpenMP并行、启用自动矢量化(-Mvect=simd)或从X86系统移植到OpenPOWER或Arm的安全性。这个用例的工作原理是在需要比较中间结果的地方向应用程序添加pcast_compare调用或compare指令。在初始运

2020-11-21 10:54:25 32

原创 用NVIDIA NsightcComputeRoofline分析加速高性能HPC的应用

用NVIDIA NsightcComputeRoofline分析加速高性能HPC的应用编写高性能的软件不是一件简单的任务。当有了可以编译和运行的代码之后,当您尝试并理解它在可用硬件上的执行情况时,将引入一个新的挑战。不同的平台,无论是cpu、gpu还是其他平台,都会有不同的硬件限制,比如可用内存带宽和理论计算限制。Roofline性能模型帮助您了解应用程序使用可用硬件资源的情况,以及哪些资源可能会限制应用程序的性能。在劳伦斯伯克利国家实验室,国家能源研究科学计算中心(NERSC)和计算研究部(CRD)一直

2020-11-21 09:11:57 32

原创 Pipe Utilization管道利用率

Pipe Utilization管道利用率概述CUDA设备的每个流式多处理器(SM)都具有许多专门用于执行特定任务的硬件单元。在芯片级,这些单元提供执行管道,翘曲调度程序将指令发送到这些管道。例如,结构单元提供执行结构获取和执行结构过滤的功能。加载/存储单元获取数据并将其保存到内存中。了解这些管道的利用率并了解它们与目标设备的峰值性能有多接近,是分析内核执行效率的关键信息;还可以确定由于超标订购特定类型的管道而导致的性能瓶颈。背景开普勒GK110白皮书和NVIDIA GeForce GTX 680白

2020-11-10 07:57:36 31

原创 Nsight Compute Profilier 分析

Nsight Compute Profilier 分析profiler报告包含每次内核启动分析期间收集的所有信息。在用户界面中,它包含一个包含常规信息的标题,以及用于在报告页面或单个收集的启动之间切换的控件。默认情况下,报告以选定的详细信息页面开始。页眉页面下拉列表可用于在可用报告页面之间切换,下一节将对此进行详细说明。探查器报告标头Launch下拉列表可用于在所有收集的内核启动之间切换。每个页面中显示的信息通常表示选定的启动实例。在某些页面(例如Raw),显示所有启动的信息,并突出显示所选实例。

2020-11-08 18:01:59 30

原创 NSight Compute 用户手册(下)

NSight Compute 用户手册(下)主菜单文件新建项目使用“新建项目”对话框创建新的分析项目Main Menu and ToolbarInformation on the main menu and toolbar.Main MenuFileNew Project Create new profiling Projectswith the New Project DialogOpen Project Open an existing profilingprojectRe

2020-11-08 17:37:02 23

原创 NSight Compute 用户手册(中)

NSight Compute 用户手册(中)NVIDIA Nsight Compute支持密码和私钥身份验证方法。在此对话框中,选择身份验证方法并输入以下信息:密码IP/主机名:目标设备的IP地址或主机名。用户名:用于SSH连接的用户名。Password:用于SSH连接的用户密码。端口:用于SSH连接的端口。(默认值为22。)部署目录:目标设备上用于部署支持文件的目录。指定的用户必须对此位置具有写入权限。私钥IP/主机名:目标设备的IP地址或主机名。用户名:用于SSH连接的用户名。S

2020-11-08 17:18:15 30

原创 NSight Compute 用户手册(上)

NSight Compute 用户手册(上)非交互式配置文件活动从NVIDIA Nsight Compute启动目标应用程序启动NVIDIA Nsight Compute时,将出现欢迎页面。单击快速启动打开连接对话框。如果未显示“连接”对话框,则可以使用主工具栏上的“连接”按钮打开它,只要当前未连接。从Connection下拉列表中选择左侧的目标平台和本地主机。然后,填写launch details并选择launch。在“活动”面板中,选择“概要文件”活动以启动预配置概要文件会话的会话,并启动命令行探

2020-11-08 16:55:52 32

原创 NVIDIA Nsight Systems CUDA 跟踪

NVIDIA Nsight Systems CUDA 跟踪CUDA跟踪NVIDIA Nsight Systems能够捕获有关在概要过程中执行CUDA的信息。可以在报告的时间轴上收集和呈现以下信息:CUDAAPI跟踪-跟踪应用程序进行的CUDA运行时和CUDA驱动程序调用。CUDA运行时调用通常以CUDA前缀开始(例如,cudaLaunch)。CUDA驱动程序调用通常以cu前缀开始(例如,cuDeviceGetCount)。跟踪主机上发生的操作(例如,对内存的跟踪)和对内存执行的拷贝。在使用CU

2020-11-08 09:32:26 47

原创 TensorRT Analysis Report分析报告

TensorRT Analysis Report一.介绍TensorRT是一个高性能的深度学习推理(Inference)优化器,可以为深度学习应用提供低延迟、高吞吐率的部署推理。TensorRT可用于对超大规模数据中心、嵌入式平台或自动驾驶平台进行推理加速。TensorRT现已能支持Tensorflow、Caffe、Mxnet、Pytorch等几乎所有的深度学习框架,将TensorRT和NVIDIA的GPU结合起来,能在几乎所有的框架中进行快速和高效的部署推理。TensorRT 是一个C++库,从 T

2020-11-06 13:40:57 60

原创 基于TensorRT优化的Machine Translation

基于TensorRT优化的Machine Translation机器翻译系统用于将文本从一种语言翻译成另一种语言。递归神经网络(RNN)是机器翻译中最流行的深度学习解决方案之一。TensorRT机器翻译示例的一些示例包括:Neural Machine Translation (NMT) Using A Sequence To Sequence (seq2seq) Model Building An RNN Network Layer By Layer4.1. Neural Machine Trans

2020-11-04 08:50:52 31

原创 用TensorRT针对AArch64用户的交叉编译示例

用TensorRT针对AArch64用户的交叉编译示例以下介绍如何在x86_64linux下为AArch64 QNX和Linux平台交叉编译TensorRT示例。2.1. Prerequisites本节提供分步说明,以确保满足交叉编译的最低要求。Procedure为对应的目标安装CUDA跨平台工具包,并设置环境变量CUDA_INSTALL_DIR。$ export CUDA_INSTALL_DIR=“your cuda install dir”Where CUDA_INSTALL_DIR

2020-11-04 08:19:25 331

原创 Recommenders with TensorRT

Recommenders with TensorRT推荐系统用于向社交网络、媒体内容消费和电子商务平台的用户提供产品或媒体推荐。基于MLP的神经协作滤波器(NCF)推荐器使用一组完全连接或矩阵乘法层来生成推荐。 TensorRT推荐人示例的一些示例包括:Movie Recommendation Using Neural Collaborative Filter (NCF)Movie Recommendation Using MPS (Multi-Process Service

2020-11-04 08:01:09 56

原创 Technology Document Guide of TensorRT

Technology Document Guide of TensorRTAbstract本示例支持指南概述了GitHub和产品包中包含的所有受支持的TensorRT 7.2.1示例。TensorRT示例在推荐程序、机器翻译、字符识别、图像分类和对象检测等领域有特殊帮助。 有关TensorRT开发文档,请参阅TensorRT归档文件。Introduction下面的示例展示了如何在许多用例中使用TensorRT,同时突出显示接口的不同功能。1.1. Getti

2020-11-04 06:50:48 58

原创 Python API vs C++ API of TensorRT

Python API vs C++ API of TensorRT本质上,C++ API和PythonAPI应该在支持您的需求方面接近相同。pythonapi的主要优点是数据预处理和后处理都很容易使用,因为您可以使用各种库,如NumPy和SciPy。在安全性很重要的情况下,例如,在汽车中,C++ API应该被使用。有关C++ API的更多信息,请参见使用C++ API。有关如何使用Python优化性能的更多信息,请参阅how Do I optimize My Python performance?来

2020-11-03 16:10:33 81 1

原创 TensorRT PoolingLayer

TensorRT PoolingLayerIPoolingLayer在通道中实现池。支持的池类型有maximum、average和maximum average混合。Layer Description: 2D pooling层描述:二维池用2D滤波器计算a维张量a上的池,生成B维的张量B。B的维数取决于a的维数、窗口大小r、对称填充p和步长s,因此:PoolingType::kMAXMaximum over elements in window.PoolingType::kAVERAGEAv

2020-11-03 13:53:04 49

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除