GPU,NPU,XPU,DPU,MPU
文章平均质量分 77
GPU,NPU,XPU,DPU,MPU
普通网友
这个作者很懒,什么都没留下…
展开
-
NPU架构分析与应用
NPU架构分析与应用原创 2022-08-11 05:41:30 · 4624 阅读 · 0 评论 -
NPU架构与算力分析
NPU架构与算力分析原创 2022-08-10 05:17:07 · 6259 阅读 · 0 评论 -
从NPU-SLAM-EDA技术分析
从NPU-SLAM-EDA技术分析原创 2022-08-09 05:31:19 · 1355 阅读 · 0 评论 -
GPU-CUDA-图形渲染分析
GPU-CUDA-图形渲染分析原创 2022-08-05 05:42:11 · 2122 阅读 · 0 评论 -
CUDA开发流程解析
CUDA开发流程解析原创 2022-06-03 07:16:59 · 1395 阅读 · 0 评论 -
TPU原理技术与xPU
TPU原理技术与xPU原创 2022-06-01 08:34:53 · 2185 阅读 · 0 评论 -
CUDA技术体系分析
CUDA技术体系分析原创 2022-05-31 06:18:01 · 506 阅读 · 0 评论 -
GPU与cuda技术协调
GPU与cuda技术协调原创 2022-05-30 06:16:04 · 441 阅读 · 0 评论 -
CUDA架构与应用杂谈
CUDA架构与应用杂谈原创 2022-05-29 06:35:55 · 820 阅读 · 0 评论 -
GPU技术市场战火
GPU技术市场战火原创 2022-05-28 06:43:26 · 627 阅读 · 0 评论 -
2022年由电子科技到整体科技
2022年由电子科技到整体科技原创 2022-05-24 07:09:06 · 1757 阅读 · 0 评论 -
集成电路技术市场产业链
集成电路技术市场产业链原创 2022-05-23 06:29:22 · 719 阅读 · 0 评论 -
小芯片技术分析
小芯片技术分析原创 2022-05-22 06:20:09 · 1849 阅读 · 0 评论 -
从DPU开始到RDMA到CUDA
从DPU开始到RDMA到CUDA原创 2022-05-20 06:55:53 · 1058 阅读 · 0 评论 -
小芯片与大芯片技术
小芯片与大芯片技术芯片尺寸构装(Chip Scale Package, CSP)是一种半导体构装技术。。作为新一代的芯片封装技术,在TSOP、BGA的基础上,CSP的性能又有了革命性的提升。CSP,全称为Chip Scale Package,即芯片尺寸封装。作为新一代的芯片封装技术,在TSOP、BGA的基础上,CSP的性能又有了革命性的提升。最早CSP只是芯片尺寸封装的缩写。根据IPC的标准J-STD-012, “Implementation of Flip Chip and Chip Scale T原创 2022-05-18 06:38:13 · 1904 阅读 · 0 评论 -
DPU与超算服务器
DPU与超算服务器软硬件融合:从DPU到超异构计算DPU是当前一个非常热门的话题。副标题是“从DPU到超异构计算”,本文详细分析了对DPU认识的四个层级:Level 1:DPU是CPU的任务卸载/加速。Level 2:IPU是基础设施,支撑上层应用。Level 3:DPU/IPU是计算的核心,CPU和GPU成为扩展。Level 4:DPU/IPU的本质是超异构计算,需要在极致灵活性的基础上,提供极致的性能。参考文献链接https://www.sdnlab.com/25519.htmlhtt原创 2022-05-16 07:37:26 · 630 阅读 · 0 评论 -
AMD与Intel,挑战英伟达GPU
AMD与Intel,挑战英伟达GPU作为CPU界的霸主,英特尔对高性能GPU市场一直没有死心。从1998年和Real3D合作推出的i740独显,到2009年无故流产的Larrabee独显,再到去年公布的Xe GPU架构。任谁来都能看出,英特尔进军独立显卡市场只是时间问题。对于NVIDIA和AMD来说,英特尔的加入听起来似乎是个坏消息。但是对于消费者而言,英特尔的加入无疑给了更多的选择。问题来了,英特尔“锐炫”系列高性能显卡究竟能够给出怎样的性能表现?英特尔能否通过在GPU市场上的发力,给友商NVIDIA原创 2022-05-12 06:39:16 · 1112 阅读 · 0 评论 -
GPU技术与动态
GPU技术与动态图形处理器(英语:graphics processing unit,缩写:GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。GPU使显卡减少了对CPU的依赖,并进行部分原本CPU的工作,尤其是在3D图形处理时GPU所采用的核心技术有硬件T&L(几何转换和光照处理)、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等,而硬件T&L技原创 2022-05-07 06:40:34 · 798 阅读 · 0 评论 -
RISC-V技术与展望
RISC-V技术与展望RISC-V(发音为“risk-five”)是一个基于精简指令集(RISC)原则的开源指令集架构(ISA)。与大多数指令集相比,RISC-V指令集可以自由地用于任何目的,允许任何人设计、制造和销售RISC-V芯片和软件。虽然这不是第一个开源指令集,但具有重要意义,因为其设计使其适用于现代计算设备(如仓库规模云计算机、高端移动电话和微小嵌入式系统)。设计者考虑到了这些用途中的性能与功率效率。该指令集还具有众多支持的软件,这解决了新指令集通常的弱点。该项目2010年始于加州大学伯克利原创 2022-05-04 05:47:49 · 451 阅读 · 0 评论 -
云计算服务器技术概述
云计算服务器技术概述概述云主机也叫云服务器ECS (Elastic Compute Server),是一种按需获取的云端服务器,提供高可靠、弹性扩展的计算资源服务,可以根据需求选择不同规格的CPU、内存、操作系统、硬盘和网络来创建云主机,满足个性化业务需求。云主机从订购到开通使用仅需数分钟时间,助快速灵活地构建企业应用。本文参考文献链接https://mp.weixin.qq.com/s/V3w6KA2u829DPY70_2Yd_ghttps://ecloud.10086.cn/home/solu原创 2022-04-15 05:37:48 · 831 阅读 · 0 评论 -
CPU技术演进方向
CPU技术演进方向中央处理器(CPU),是电子计算机的主要设备之一,电脑中的核心配件。其功能主要是解释计算机指令以及处理计算机软件中的数据。CPU是计算机中负责读取指令,对指令译码并执行指令的核心部件。中央处理器主要包括两个部分,即控制器、运算器,包括高速缓冲存储器及实现联系的数据、控制的总线。电子计算机三大核心部件就是CPU、内部存储器、输入/输出设备。中央处理器的功效主要为处理指令、执行操作、控制时间、处理数据。在计算机体系结构中,CPU 是对计算机的所有硬件资源(如存储器、输入输出单元) 进行控制原创 2022-04-14 06:39:19 · 602 阅读 · 0 评论 -
半导体技术基础
半导体技术基础AI的许多数据处理涉及矩阵乘法和加法。大量并行工作的GPU提供了一种廉价的方法,但缺点是更高的功率。具有内置DSP模块和本地存储器的FPGA更节能,但它们通常更昂贵。AI芯片该使用什么方法原理去实现,仍然众说纷纭,这是新技术的特点,探索阶段百花齐放,这也与深度学习等算法模型的研发并未成熟有关,即AI的基础理论方面仍然存在很大空白。这是指导芯片如何设计的基本前提。因此,集中在如何更好的适应已有的数据流式处理模式进行的芯片优化设计。原创 2022-04-13 06:55:29 · 3296 阅读 · 1 评论 -
OpenCL与Cuda技术
OpenCL与Cuda技术CUDA只针对NVIDIA的GPGPU,OpenCL是并行运算的通用接口。想用CUDA就必须有NVIDIA的显卡或者计算卡。OpenCL对应的设备更广泛,CPU、显卡、FPGA、DSP等等都可能可以用OpenCL开发。但是在显卡领域OpenCL表现并不好。显卡厂商并没在OpenCL上进行很大的投入,导致在基于显卡的高性能运算领域OpenCL并不好用。CUDA和OpenCL的芯片结构类似,都是按等级划分的,并逐渐提高等级。然而OpenCL更具通用性并使用更加一般的技术,如Ope原创 2022-04-11 05:32:48 · 2720 阅读 · 0 评论 -
GPU显卡架构
GPU显卡架构GPU架构“征途之旅”即日起航如果成为一个资深DIY玩家,想与众多DIY高手“高谈阔论”GPU架构设计,先必须弄明白显卡GPU架构设计的基本思想和基本原理,读懂GPU架构图正是这万里长征的第一步。GPU显卡架构图分析如下问题:一、顶点、像素、着色器是什么;二、SIMD与MIMD的架构区别;三、A/N在统一渲染架构革新中的三次交锋情况如何;四、为什么提出并行架构设计;五、A/N两家在GPU架构设计的特点及异同点是什么。非统一架构时代的GPU架构组件上世纪的绝大多数显示原创 2021-10-21 06:34:36 · 1481 阅读 · 0 评论 -
GPGPU台积电7nm制程
GPGPU台积电7nm制程36氪获悉,壁仞科技宣布其首款通用GPU“BR100”正式交付台积电生产。这一芯片采用了台积电7纳米的制程工艺,已进入流片阶段,预计将在明年面向市场发布。壁仞科技本次交付流片的通用 GPU —— BR100,具有高算力、高通用性、高能效三大优势,采用先进的 7 纳米制程工艺,依托芯片架构,集合了诸多业界最新的芯片设计、制造与封装技术。据了解,“BR100”系列完全依托壁仞科技自主原创的芯片架构,主要聚焦的场景是人工智能训练推理、通用运算等,包括智慧城市、公有云、大数据分析、自原创 2021-10-18 06:17:17 · 1112 阅读 · 0 评论 -
天元MegEngine训练推理
天元MegEngine训练推理Brain++ 新一代AI生产力平台旷视Brain++是由旷视研究院自主研发的新一代 AI 生产力平台,致力于帮助企业和开发者提升AI生产效率、规范生产流程。Brain++的核心能力包括数据的处理、清洗和管理能力,算力的共享、调度和分布式能力,算法的训练、推理及部署能力,目前,旷视正通过逐步开源核心框架、开放算力和数据平台的形式,为企业客户和广大开发者提供规模化AI生产能力。核心模块天元MegEngine天元MegEngine诞生于2014年并于2020年3月开源,原创 2021-06-14 05:52:25 · 350 阅读 · 1 评论 -
关于TVM的点滴记录
关于TVM的点滴记录原创 2021-06-13 05:47:09 · 447 阅读 · 0 评论 -
TVM 各个模块总体架构
TVM 各个模块总体架构Deploy Deep Learning EverywhereExisting Deep Learning FrameworksLimitations of Existing ApproachLearning-based Learning SystemProblem SettingExample Instance in a Search SpaceOptimization Choices in a Search SpaceProblem Form原创 2021-06-12 18:21:57 · 1519 阅读 · 0 评论 -
TVM 图优化Graph Optimization
TVM 图优化Graph OptimizationCodegen原创 2021-06-12 06:09:05 · 665 阅读 · 0 评论 -
GPU特征处理技术
GPU特征处理技术GPU和CPU有何不同?现代片上系统(SoC)通常集成中央处理器(CPU)和图形处理器(GPU)。设计不同,这可能更取决于处理的数据集的类型。CPU经过优化,可以一次对几块数据执行大量分支任务。在CPU上运行的线程通常是唯一的,并且是独立执行的,通常独立于所有其他线程。任何给定的处理元素都将在单个线程中进行处理。CPU上程序的典型线程数通常为1到8个,在任何时间段内最多为几十个。GPU经过优化,工作原理是同一段代码将在多个线程中执行,通常数为数百万,以处理当今设备的大屏幕分辨率。这原创 2021-06-08 06:20:50 · 382 阅读 · 0 评论 -
XGBoost4J-Spark基本原理
XGBoost4J-Spark基本原理XGBoost4J-Spark是一个项目,旨在通过使XGBoost适应Apache Spark的MLLIB框架,无缝集成XGBoost和Apache Spark。通过集成,用户不仅可以使用XGBoost的高性能算法实现,还可以利用Spark强大的数据处理引擎实现以下功能:• 特征工程:特征提取,变换,降维和选择等。• 管道:构造,评估和调整ML管道• 持久性:持久化并加载机器学习模型,甚至整个管道本文将介绍使用XGBoost4J-Spark构建机器学习管道的端原创 2021-03-22 06:04:19 · 1221 阅读 · 1 评论 -
MLIR: Infrastructure架构
MLIR: Infrastructure原创 2021-03-21 15:19:11 · 264 阅读 · 0 评论 -
MLIR(Multi-Level Intermediate Representation Compiler)架构 Infrastructure
MLIR(Multi-Level Intermediate Representation Compiler)架构 InfrastructureOverview• Context• About MLIR• A few users of MLIR• Provocative (?) proposal for Clang and LLVM• ConclusionWhat is wrong with existing compilers?原创 2021-03-21 07:01:42 · 298 阅读 · 0 评论 -
NVIDIA GPU自动调度神经网络
NVIDIA GPU自动调度神经网络对特定设备和工作负载进行自动调整对于获得最佳性能至关重要。这是有关如何使用自动调度器为NVIDIA GPU调整整个神经网络。为了自动调整神经网络,将网络划分为小的子图,并对其进行独立调整。每个子图被视为一个搜索任务。任务调度程序可以对时间进行分片,并为这些任务动态分配时间资源。任务调度程序可以预测每个任务对端到端执行时间的影响,确定可以最大程度地减少执行时间的任务的优先级。对于每个子图,使用compute声明tvm/python/topi获取张量表达式形式的计算DA原创 2021-03-14 20:50:53 · 354 阅读 · 0 评论 -
如何使用TVM Pass Relay
如何使用TVM Pass红外线随着Relay / tir中优化遍数的增加,执行并手动维护其依赖关系变得很棘手。引入了一个基础结构来管理优化过程,将其应用于TVM堆栈中IR的不同层。Relay / tir程序的优化可以以各种粒度应用,分别使用tvm.relay.transform.FunctionPass/ tvm.tir.transform.PrimFuncPass和的功能级别和模块级别tvm.transform.ModulePass 。用户可以依靠在tvm.transform.Sequential r原创 2021-03-14 14:59:20 · 359 阅读 · 0 评论 -
VTA硬件
VTA硬件提供了VTA硬件设计的自上而下的概述。本硬件设计涵盖两个级别的VTA硬件:• VTA设计及其ISA硬件-软件接口的体系结构概述。• VTA硬件模块的微体系结构概述以及计算核心的微代码规范。VTA概述VTA是为快速,高效的密集线性代数而构建的通用深度学习加速器。VTA集成了一个简单的类似RISC的处理器,可以对1或2级张量寄存器执行密集的线性代数运算。另外,该设计采用解耦访问执行以隐藏内存访问延迟。在更广泛的范围内,VTA可以用作模板的深度学习加速器设计,以进行完整的堆栈优化,从而将通用原创 2021-03-14 14:17:51 · 710 阅读 · 0 评论 -
TensorFlow Frontend前端
TensorFlow Frontend前端TensorFlow前端有助于将TensorFlow模型导入TVM。Supported versions:• 1.12 and belowTested models:• Inception (V1/V2/V3/V4)• Resnet (All)• Mobilenet (V1/V2 All)• Vgg (16/19)• BERT (Base/3-layer)Preparing a Model for Inference准备推理模型Remove U原创 2021-03-14 13:45:22 · 298 阅读 · 0 评论 -
向Relay添加算子
向Relay添加算子为了在Relay IR中使用TVM算子,需要在Relay中注册算子,以确保将其集成到Relay的类型系统中。注册算子需要三个步骤:• 使用RELAY_REGISTER_OPC ++中的宏注册算子的Arity和类型信息• 定义一个C ++函数为算子生成一个调用节点,并为该函数注册一个Python API挂钩• 将上述Python API挂钩包装在更整洁的界面中该文件src/relay/op/tensor/binary.cc提供了前两个步骤的python/tvm/relay/op原创 2021-03-14 08:28:39 · 371 阅读 · 0 评论 -
TVM自定义数据类型
TVM自定义数据类型本文将介绍“自定义数据类型”框架,该框架可在TVM中使用自定义数据类型。介绍在设计加速器时,关键是如何近似地表示硬件中的实数。这个问题具有长期的行业标准解决方案:IEEE 754浮点标准。然而,当试图通过构建高度专业化的设计来最大限度地利用硬件时,使用通用IEEE 754浮点数是否有意义?知道工作负载的数字要求,是否可以构建更小,更快或更省电的数据类型?答案是肯定的!研究人员已经开始在学术和工业加速器设计中尝试新的数据类型。例如,Google的Tensor处理单元(TPU)使用bf原创 2021-03-14 07:45:17 · 245 阅读 · 0 评论 -
TinyML-TVM如何驯服TinyML
TinyML-TVM如何驯服TinyML低成本,以人工智能为动力的消费类设备的激增,导致机器学习研究人员和从业人员对“裸机”(低功耗,通常没有操作系统)设备产生了广泛的兴趣。尽管专家已经有可能在某些裸机设备上运行某些模型,但是为各种设备优化模型的挑战非常艰巨,通常需要手动优化设备特定的库。对于那些没有Linux支持的平台,不存在用于部署模型的可扩展解决方案。因此,为了定位新设备,开发人员必须实现一次性的定制软件堆栈,以管理系统资源和调度模型执行。机器学习软件的手动优化不是裸机设备领域独有的。实际上,对于原创 2021-03-13 06:21:00 · 401 阅读 · 0 评论