自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 [自动驾驶 SoC]-3 英伟达Orin

Orin SoC,如下图所示,由一个NVIDIA Ampere architecture GPU, Arm® Cortex®-A78AE CPU, 下一代深度学习核视觉处理加速器, 视频编码器和视频解码器组成。1.1) 环境感知:摄像头捕捉停车场景,LiDAR扫描周围环境。处理单元:CUDA核心处理图像预处理,Tensor核心运行YOLO等物体检测模型识别停车位和障碍物。1.2) 路径规划:计算最优泊车路径。

2024-06-17 12:00:19 420

原创 [自动驾驶技术]-8 Tesla自动驾驶方案之硬件(AI Day 2022)

特斯拉在AI Day 2022先介绍了AI编译器,后面又介绍了Dojo的硬件软件,软件部分和AI编译器有部分重叠,本文介绍还是延用AI Day的思路,分为三部分:AI编译和推理,Dojo硬件,Dojo软件。

2024-05-27 10:52:38 1125

原创 [处理器芯片]-7 超标量CPU实现之访存

超标量CPU的访存单元是一个关键的子系统,负责处理指令和数据的读取和写入操作。访存单元的设计直接影响到处理器的性能、延迟和吞吐量,通常考虑加入指令硬件预取以提高访存效率。

2024-05-26 17:38:06 767

原创 [处理器芯片]-6 超标量CPU实现之浮点运算

BF16 (16位浮点数,Brain Floating Point, BP16),是一种为机器学习优化的16位浮点数格式,保留了单精度浮点数的指数范围,但减少了尾数的位数:包括1位符号位,8位指数位,7位尾数位。SIMD(Single Instruction, Multiple Data)是一种并行计算架构,通过扩展处理器的指令集来操作多个数据元素,这些数据元素通常被存储在一个大的寄存器中,例如处理器可以使用一条指令同时对四个 32 位浮点数或八个 16 位整数进行运算。// 第三个整数加法。

2024-05-26 16:35:55 697

原创 [处理器芯片]-5 超标量CPU实现之ALU

ALU(Arithmetic Logic Unit,算术逻辑单元),是CPU执行单元中最主要的组成部分。

2024-05-26 16:22:57 937

原创 [处理器芯片]-4 超标量CPU实现之分支预测

分支预测通过预测程序中分支指令(如条件跳转、循环、函数调用等)的执行路径,从而减少因分支指令带来的流水线停顿和性能下降,用于提高指令流水线的效率,是处理器非常关键的一项技术。

2024-05-26 16:12:12 982

原创 [处理器芯片]-3 超标量CPU实现之取指

6)调度器:负责根据指令的依赖关系和可用资源,将指令调度到可用的执行单元中,包括确定指令的执行顺序,管理执行单元的利用率,并确保指令的正确执行。具体实现可以通过链表、堆栈或计数器来记录每个缓存块的最近使用情况,具备较高的命中率,尤其是在具有较强局部性的访问模式下表现良好,是最简单的也是使用最广泛的一种替换策略。对于变化频繁的访问模式,效果不佳。当需要访问的内存卡不在缓存中,触发缓存未命中,需要在缓存中选择剔除块进行替换,替换策略决定了当缓存满了时,哪个缓存块应该被替换掉,以便为新的数据腾出空间。

2024-05-26 16:00:32 926

原创 [处理器芯片]-2 CPU架构

CPU有多种架构,例如x86,ARM,RISC-V,不同的架构定义了不同的指令集架构(ISA,Instruction Set Architecture)。ISA通常包括数据处理指令(数学运算、逻辑运算、比较、移位等)、数据搬运、控制流指令(程序执行地址的跳转);从宏观角度ISA可以分为CISC(复杂指令集计算)和RISC(精简指令集计算)两种不同的处理器设计理念。

2024-05-25 13:43:52 674

原创 [自动驾驶技术]-7 Tesla自动驾驶方案之算法(AI Day 2022)

特斯拉在2022年AI Day上更新了感知规控算法模型,核心引入了Occupancy技术。下图是特斯拉活动日展示的主题内容,本文主要解读Planning和Neural Network部分。

2024-05-24 11:44:51 1158

原创 [自动驾驶技术]-6 Tesla自动驾驶方案之硬件(AI Day 2021)

特斯拉的Dojo架构由计算单元和Network Fabric(指芯片上用于连接和通信的网络架构,是一种高性能的互连系统,负责在芯片内部不同计算单元之间传输数据)组成,采用了多种技术例如采用2D网格网络进行数据传输、对神经网络分割、调用本地存储方式等解决带宽和延迟的限制。自定义目标支持:特斯拉可以通过LLVM的目标描述文件,定义Dojo芯片的特性,并扩展LLVM的指令选择和代码生成模块,以支持特斯拉可能有的特定的硬件加速单元和自定义指令集自定义指令。使用LLVM作为底层处理生成硬件所需的二进制代码。

2024-05-23 20:56:51 1181 3

原创 [自动驾驶技术]-5 Tesla自动驾驶方案之算法(AI Day 2021)

有朋友问我,如何有效学习一个新技术。笔者这么多年的经验是:1)了解国内外产业应用和标准法规现状,先建立宏观知识图谱及技术系统框架;2)根据系统框架逐块进行深入研究(横向、纵向),穿插行业内主流厂商对应模块技术方案;3)系统研究行业内TOP厂商完整解决方案;4)针对你选择的重点方向进阶研究。因此笔者建立的自动驾驶专题介绍也会按照这个思路搭建技术体系(发布内容顺序不一定能严格遵守该路线,但会力求不断更新最终能按照该思路完成自动驾驶专栏搭建)。

2024-05-23 17:12:39 1477 1

原创 [自动驾驶技术]-4 决策规划系统

在自动驾驶系统中,决策规划是一个关键部分,它位于环境感知和控制执行之间,负责将感知模块提供的静态和动态环境信息转化为具体的驾驶策略和路径规划,生成期望的路径和相应的控制量,给到下一阶段控制执行使用。决策规划模块的主要任务包括:全局路径规划、行为决策、运动轨迹规划(主要进行局部路径规划和速度规划)。决策规划的体系架构早期是基于全局路径规划→行为决策→运动轨迹规划分层递进式的,具备推理解释能力,但中间存在延迟,路径误差累计较大,可靠性不高;

2024-05-22 13:32:09 1137 1

原创 [智能座舱]-发展历程趋势挑战和车手互联

这两天一直有朋友找笔者聊智能座舱,笔者虽然现在全身心扑在自动驾驶上,但之前有过多年车手互联端到端解决方案从0到1到多的商用项目经验,多年来对智能座舱也有些自己的心得,遂成文和大家一起分享下。

2024-05-21 23:32:12 529 1

原创 [自动驾驶技术]-3 感知系统之任务和算法

这一类任务主要涉及对周围环境的感知和理解,包括车道识别、行人和物体识别、交通信号标志识别、障碍物识别以及其他车辆识别。总结下,实际应用中我们并不需要针对每个子任务都使用对应的算法实现,而是将以上所有子任务对应的算法(主要关注深度学习算法)参照上一节子任务合并的方式进行规整,以便于梳理出主流的感知算法模型,避免重复计算。自动驾驶中的感知任务是指从传感器获取的数据中提取有关周围环境的信息,包括道路、障碍物、交通标志、行人等,对于自动驾驶系统来说至关重要,因为它们提供了车辆在道路上行驶所需的基础信息。

2024-05-21 15:12:00 1437 1

原创 [自动驾驶技术]-2 感知系统之传感器功能和网络方案

主摄像头,最大监测距离150米;1V1R,通常是最低限度的传感器配置,一个前视摄像头(前挡风玻璃正中)和一个毫米波雷达(车前保正中),这种配置甚至可以支持一部分基础的L2功能,但有一定的局限性。毫米波雷达是基于多普勒效应和时域反射原理,雷达天线发射毫米波信号,信号遇到障碍物反射回接收器,通过探测波反射回来的时间差和频移,测量物体的距离、速度和方向来确定目标信息。5个摄像头:1个前视摄像头(前挡风玻璃正中),4个环视摄像头即常说的鱼眼摄像头(部署位置前保正中,后保/尾门上方正中,左右后视镜下方)

2024-05-21 14:56:01 1150 1

原创 [自动驾驶技术]-1 概述技术和法规

自动驾驶(Autonomous Driving),也称为无人驾驶或自驾,是指通过计算机系统和传感器设备,自动驾驶汽车在没有人类干预的情况下能够感知环境并做出驾驶决策,从而实现车辆的自主行驶。

2024-05-21 09:02:36 885

原创 [自动驾驶 SoC]-2 软硬协同

Shader Engine接收内核启动命令,配置计算单元(如SM,Streaming Multiprocessor),并启动内核执行。ACE调度器从命令队列中提取内核启动命令,并根据资源可用性和调度策略将任务分配给合适的着色器引擎(Shader Engine,SE)。主机端运行时将内核启动命令等插入用于存放AQL(Architected Queuing Language)数据包的AQL队列中,AQL数据包含有与内核分派有关信息,如网格、工作组大小、内核函数信息等。将取出的指令译码为可执行的操作。

2024-05-20 13:43:53 714

原创 [自动驾驶 SoC]-1 AI芯片介绍

AI芯片是专门设计用于加速人工智能(AI)计算任务的处理器,通常具有优化的硬件架构和指令集,能够高效地执行深度学习推理和训练等任务。

2024-05-20 13:30:06 1071

原创 [处理器芯片]-1 概要介绍

(笔者本人从事过多年芯片开发,一谈起这个话题,眉飞色舞两眼直冒光!!处理器芯片是计算系统中的核心组件之一,用于执行各种计算任务和控制系统的操作;只要是电子设备几乎都离不开处理器芯片。

2024-05-20 13:00:52 687

原创 [编译器]-3 TVM分层设计

TVM(Tensor Virtual Machine)是一个开源的端到端深度学习编译器堆栈,旨在优化和生成针对各种硬件平台的高性能机器学习模型代码。

2024-05-19 20:17:51 935

原创 [编译器]-2 AI编译器介绍

AI领域已有很多深度学习框架,TensorFLow,PyTorch、Caffee2等,AI模型开发者面临从一个框架切换到另一个框架的困难,而框架开发维护者也面临不同芯片平台支持的挑战,因此AI芯片厂商需要为每款芯片提供多框架支持,每个算子可能需要以不同方式定义和实现,导致出现了面向专用架构的AI编译器:TVM、XLA、Glow等。

2024-05-19 19:00:54 850

原创 [编译器]-1传统编译器介绍

编译器是一种软件工具,将高级编程语言编写的源代码转换为低级机器语言代码,使计算机能够执行程序,简言之就是将我们常用的C/C++等高级语言编写的程序转换成机器能执行的01代码。

2024-05-18 10:07:47 578 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除