自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

一碗白开水一

一碗白开水一

  • 博客(169)
  • 收藏
  • 关注

原创 【第30话:路径规划】自动驾驶中Hybrid A星(A*)搜索算法的详细推导及代码示例

Hybrid A星搜索算法在自动驾驶中的路径规划 Hybrid A星算法是一种结合离散搜索和连续状态空间处理的路径规划方法,适用于自动驾驶车辆的复杂运动学约束。该算法通过以下关键步骤实现高效路径搜索: 混合状态表示:将连续位置(x,y)和方向角θ离散化为网格,同时保留连续运动模型 双重启发函数:结合欧几里得距离和Reeds-Shepp曲线,确保搜索效率和解的最优性 车辆动力学约束:基于自行车模型进行状态转移,考虑转向角限制和轴距影响 代价函数优化:综合路径长度和平滑度,通过优先级队列实现高效节点扩展 算法在

2025-09-23 10:59:26 658

原创 【第29话:路径规划】自动驾驶启发式搜索算法(A星搜索算法( A* 搜索算法))详解及代码举例说明

本文详细介绍了自动驾驶系统中启发式搜索算法(以A算法为例)的原理与应用。文章首先阐述了启发式搜索的基础概念,包括代价函数、启发式函数及其在自动驾驶路径规划中的重要性。接着重点解析A算法的运作机制,强调其通过优先队列和启发式函数实现高效搜索的特点。文章还提供了A*算法的Python实现示例,展示了其在网格地图中的实际应用。最后,作者探讨了算法在自动驾驶中的优化方向,如动态环境处理和启发式设计改进,并指出未来可能的发展趋势,包括与机器学习结合和硬件加速等。全文兼顾理论与实操,为自动驾驶路径规划提供了清晰的技术指

2025-09-23 10:39:07 411

原创 【第28话:路径规划】Dijkstra搜索算法详解及代码举例说明

适用条件有向/无向图非负边权重单源最短路径优势时间复杂度优于Bellman-Ford算法可扩展为A*算法(加启发函数)局限无法处理负权边不适用全源最短路径(需用Floyd-Warshall)

2025-09-23 10:20:02 335

原创 【第27话:路径规划】深度优先搜索(DFS搜索算法)算法详解及代码举例说明

本文详细介绍了深度优先搜索(DFS)算法,包括其原理、时间复杂度和代码实现。DFS通过递归或迭代方式深入探索每条路径,适用于图的遍历和连通性问题分析。文章以Python代码为例,展示了DFS在无向图中的实现过程,并通过具体示例说明了算法的执行流程和输出结果。DFS的时间复杂度为O(V+E),空间复杂度为O(V),适合解决需要深度探索的问题,但不保证找到最短路径。

2025-09-23 10:06:33 295

原创 【第26话:路径规划】广度优先搜索(BFS搜索算法)算法详解及代码举例说明

本文详细介绍了广度优先搜索(BFS)算法,包括其数学原理、实现步骤和Python代码示例。BFS通过逐层遍历图或树结构,确保找到无权图中的最短路径(边数最少)。文章从距离公式推导入手,说明如何通过队列的先进先出特性实现分层遍历,并分析了算法的时间复杂度为O(|V|+|E|)。提供的Python代码使用邻接表表示图,演示了BFS如何计算各节点到起点的最短距离。BFS广泛应用于最短路径查找、网络爬虫等场景,是图论中的基础算法之一。

2025-09-23 09:53:22 515

原创 【第25话:路径规划】自动驾驶路径规划概念与理论介绍

自动驾驶路径规划是车辆在动态环境中寻找最优运动轨迹的核心技术,需满足安全性、高效性、舒适性和可行性等要求。关键技术包括环境建模(栅格地图、拓扑地图等)、路径搜索算法(A*、RRT*等)和轨迹优化方法(样条插值、最优控制等)。理论模型涵盖车辆运动学、障碍物规避和不确定性处理。典型实现流程分为环境感知、全局路径规划和局部轨迹优化。前沿研究方向涉及多智能体协同、强化学习、V2X融合和伦理决策框架,系统需满足实时性和大规模状态空间处理要求。

2025-09-23 09:46:01 625

原创 【训练技巧】torch.cuda.amp.GradScaler() 深入详解

PyTorch的GradScaler是自动混合精度(AMP)训练的核心组件,主要解决float16数值精度不足的问题。它通过动态缩放梯度,将梯度值保持在float16的安全范围内:先放大梯度避免下溢,优化前再恢复原始量级。其数学原理确保不影响优化方向。典型使用需配合autocast()上下文,优势包括显存减半、计算加速2-8倍、自动数值保护等。注意事项包括仅支持CUDA设备、避免手动梯度处理等。该技术能显著提升大模型训练效率,已成为现代深度学习标配。

2025-09-22 13:10:24 597

原创 【第24话:定位建图】 SLAM回环检测方法及原理详细介绍

SLAM回环检测是机器人定位与建图的关键技术,通过识别重复访问的地点校正累积误差。主要方法分为基于外观(如词袋模型)和基于几何(如扫描匹配)两类,前者通过特征相似度检测回环,后者利用点云对齐实现。混合方法和深度学习技术(如NetVLAD)正成为趋势,以提高鲁棒性和适应性。实际应用中需权衡效率与精度,如视觉SLAM常用词袋模型,激光SLAM倾向扫描匹配。回环检测显著提升SLAM系统的全局一致性,是长期稳定运行的核心保障。

2025-09-10 13:41:22 516

原创 【第23话:定位建图】SLAM后端优化方法详解

SLAM后端优化方法研究综述 摘要:SLAM后端优化是消除累计误差、提升系统精度的关键环节。本文系统分析了主流优化方法:基于滤波的EKF和粒子滤波(FastSLAM)具有线性计算优势但精度受限;基于图优化的方法通过因子图建模实现全局一致性优化,采用Gauss-Newton或Levenberg-Marquardt算法求解;增量式优化(如iSAM2)利用贝叶斯树实现高效更新。研究对比了不同方法的计算复杂度(EKF O(n²) vs iSAM2 O(logn))和适用场景,并探讨了稀疏性处理、鲁棒核函数等关键技术

2025-09-10 13:37:14 623

原创 【第20话:定位建图】SLAM视觉里程计——特征点法详解

本文详细介绍了SLAM中视觉里程计的特征点法,包括其核心原理、关键步骤和数学基础。特征点法通过提取图像中的显著特征点(如ORB、SIFT)并匹配不同帧的对应关系,计算相机运动轨迹。主要步骤包括特征提取、匹配、运动估计和优化,涉及对极约束、本质矩阵分解等数学模型。该方法鲁棒性强、效率高,但对低纹理场景敏感且存在累积误差。文章还提供了简化的Python代码示例,展示了特征点法的基本实现流程。特征点法在机器人导航和增强现实等领域广泛应用,是SLAM系统的重要组成部分。

2025-09-10 13:29:57 637

原创 【第22话:定位建图】SLAM视觉里程计——光流法(直接法)详解

本文详解了SLAM中视觉里程计的光流法原理与应用。光流法通过追踪像素运动估计相机位姿,基于亮度恒定假设推导光流约束方程。Lucas-Kanade和Horn-Schunck是两种主要求解方法,分别采用局部和全局优化策略。文中提供了Python实现示例,并分析了光流法的优缺点:计算高效但易受光照变化、运动模糊等因素影响。实际应用中需与其他技术融合以减少误差。光流法作为视觉里程计的基础组件,仍需结合多视图几何优化提升精度。

2025-09-10 13:25:38 624

原创 【第21话:定位建图】SLAM视觉里程计——直接法详解

SLAM视觉里程计特征点法通过检测图像特征点(如FAST、ORB)并生成描述子进行匹配,利用几何约束(PnP、本质矩阵)估计相机运动。其核心步骤包括特征检测、描述、匹配和运动估计,依赖相机模型和重投影误差优化。优点是鲁棒高效,但受限于纹理缺失和动态场景。该方法在机器人导航中广泛应用,是SLAM系统的重要基础。

2025-09-10 13:21:08 875

原创 【第17话:定位建图】 KD树(KD-Tree)的建立与最近邻算法(NN)详解

KD树是一种多维空间索引结构,通过递归划分k维空间实现高效数据组织。其构建过程采用坐标轴交替分割,时间复杂度为O(n log n)。最近邻搜索算法(NN)利用KD树加速查询,通过超球面剪枝策略优化搜索路径,理想情况下复杂度为O(log n)。对于大规模数据,可采用近似最近邻(ANN)方法,通过限制搜索深度或允许近似结果来提升效率。该技术广泛应用于图像检索、KNN分类器加速和空间数据库查询等领域,特别适合处理高维数据检索问题。

2025-09-10 12:55:06 651

原创 【第19话:定位建图】SLAM点云配准之3D-3D ICP(Iterative Closest Point)方法详解

本文详细介绍了SLAM中点云配准的核心算法ICP(Iterative Closest Point)。ICP通过迭代优化刚体变换(旋转和平移)来对齐点云数据,包含四个关键步骤:最近点搜索、最优变换计算、点云变换和收敛判断。文章推导了ICP的数学原理,分析其优缺点,并指出其在SLAM中的典型应用场景(如帧间配准、局部优化和回环检测)。尽管ICP对初始位置敏感且仅适用于刚性变换,但其高效性使其成为SLAM系统的关键组件。理解ICP有助于掌握点云配准的基本原理和实现方法。

2025-09-10 12:42:23 808

原创 【第18话:定位建图】SLAM 语义地图创建方法及流程详解

摘要 SLAM(同步定位与建图)结合语义分割技术可构建包含物体类别与属性的语义地图,提升机器人导航与场景理解能力。核心方法包括:1)视觉SLAM与语义分割融合,2)多传感器(LiDAR、IMU、摄像头)数据整合,3)端到端深度学习模型。构建流程涵盖数据采集、特征提取、语义分割、位姿估计、语义融合及地图优化。关键技术挑战包括动态物体处理、实时性优化及语义一致性维护。典型实现通过点云分割与SLAM系统(如ORB-SLAM3)结合,辅以深度学习模型(如PointNet++)完成语义标注,最终生成八叉树或点云形式的

2025-09-10 12:34:10 1030

原创 【论文阅读】Far3D: Expanding the Horizon for Surround-view 3D Object Detection

摘要: 本文提出Far3D,一种基于稀疏查询的环视3D目标检测框架,针对远距离检测挑战设计。通过2D检测先验生成自适应3D查询,结合视角感知聚合模块捕获多尺度特征,并创新性提出范围调制3D去噪方法解决误差传播问题。在Argoverse 2数据集上达到150米检测范围,性能超越多个激光雷达方法,在nuScenes数据集同样表现优异。该工作为远距离视觉3D检测提供了新思路,代码已开源。

2025-09-08 17:58:35 721

原创 【第15话:定位建图】车辆状态估计:航迹递推DR公式推导详细介绍及代码实现

航迹递推(DR)是自动驾驶中基于历史运动状态推算位置的核心技术,在GPS失效时提供连续定位,并辅助传感器融合降低延迟。其基本原理是通过位移增量(Δd=v·Δt)和航向角(θ)更新位置坐标,但存在误差累积问题。Python实现展示了DR的轨迹推算过程,需结合其他定位技术校正误差。DR在自动驾驶中扮演安全网角色,未来需优化算法以提升精度。

2025-09-08 10:26:08 1121

原创 【第14话:感知算法】库位与可行驶区域检测后处理方法介绍及代码示例说明

本文介绍了库位与可行驶区域检测的后处理方法。对于库位检测,采用非极大值抑制消除重叠框,结合几何约束优化检测结果,包括角点校正、边线拟合、拓扑验证等步骤,并输出结构化数据。可行驶区域检测通过多传感器后融合提高鲁棒性,包括投票融合、贝叶斯方法、D-S证据理论和栅格地图融合等技术。文章还提供了基于OpenCV和NumPy的代码实现,涵盖NMS、形态学操作和区域合并等关键处理步骤,有效提升检测精度和可靠性。

2025-09-08 10:12:07 670

原创 【论文阅读】VovNet:An Energy and GPU-Computation Efficient Backbone Network for Real-Time Object Detection

本文提出VoVNet网络架构以解决DenseNet在目标检测中的低效问题。通过分析发现,DenseNet的密集连接导致内存访问成本高和计算效率低。作者提出一次性聚合(OSA)模块,通过简化特征连接方式,仅在最上层聚合特征,显著减少了30%的内存占用。实验表明,VoVNet在保持DenseNet性能优势的同时,计算速度提升2倍,能耗降低1.6-4.1倍。研究还发现1×1卷积会降低GPU并行效率,证实了OSA模块的设计合理性。该工作为实时目标检测提供了更高效的骨干网络选择。

2025-09-02 16:25:58 464

原创 【论文阅读】Sparse4D v3:Advancing End-to-End 3D Detection and Tracking

本文提出Sparse4D v3框架,实现了端到端3D检测与跟踪的联合优化。针对稀疏感知算法存在的收敛困难和端到端跟踪问题,作者提出四项创新:1)时序实例去噪方法,通过加噪GT生成训练样本提升收敛稳定性;2)质量估计模块,引入中心度和偏航度指标评估检测质量;3)解耦注意力机制,改进特征交互方式;4)无需额外训练的端到端跟踪方案。实验表明,该方法在nuScenes数据集上达到SOTA性能,检测NDS为67.1%,跟踪AMOTA为67.3%。该框架为稀疏范式在自动驾驶感知任务中的应用提供了新思路,未来可拓展至道路

2025-09-01 16:54:42 1069

原创 【论文阅读】Sparse4D v2:Recurrent Temporal Fusion with Sparse Model

Sparse4D v2通过循环时序融合和稀疏模型改进3D目标检测性能。主要创新点包括:1)将实例特征与结构化锚点解耦,实现高效时序传播;2)优化可变形聚合模块,改为边采样边融合,提升计算效率;3)引入相机参数编码和密集深度监督辅助训练。实验表明,在nuScenes数据集上,该方法在256×704和512×1408分辨率下均达到SOTA性能,且高分辨率时推理速度优于StreamPETR。消融实验验证了各模块的有效性,特别是深度监督防止了训练崩溃,将mAP提升8.5%。该工作展示了稀疏算法在长时序3D检测任务中

2025-08-29 11:33:57 849

原创 【第2.2话:基础知识】图像平移、缩放、旋转、裁剪与坐标矩阵变换关系详细推导及代码举例说明

本文介绍了图像处理中常见的几何变换(平移、缩放、旋转、裁剪)在齐次坐标系下的矩阵表示方法。通过3×3变换矩阵统一处理,详细推导了各变换的矩阵形式,并分析了变换对坐标系的影响。重点说明了变换组合的顺序性,通过矩阵乘法实现复合变换,并以裁剪-缩放-旋转-平移为例展示了复合矩阵的推导过程。这些变换在图像处理中具有广泛应用,理解其矩阵表示和组合顺序对实现精确的几何变换至关重要。

2025-08-28 14:17:19 576

原创 【论文阅读】Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion

摘要: 本文提出Sparse4D,一种基于稀疏时空融合的多视角3D目标检测方法,旨在解决传统BEV方法计算量大、高度压缩等问题。Sparse4D通过多视角图像输入,利用特征编码器提取多尺度时序特征,并通过可变形4D聚合(Deformable4D Aggregation)模块实现关键点采样与层级融合,结合深度重加权模块(Depth Reweight Module)缓解3D-2D投影歧义。实验表明,Sparse4D在nuScenes数据集上性能优越,长时序融合显著提升检测精度(10帧时效果最佳)。该方法为稀疏化

2025-08-19 20:39:14 818

原创 【论文阅读】DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

DETR3D是一种基于多视角图像的端到端3D目标检测框架,通过3D到2D的查询机制实现高效检测。其核心创新在于:1)直接在3D空间进行预测,避免自下而上方法的深度预测误差;2)利用几何投影将3D查询与多视图2D特征关联;3)采用Transformer架构实现无需NMS后处理的一对一预测。该模型在nuScenes等数据集上表现优异,尤其擅长处理相机重叠区域。虽然计算开销较大,但为多传感器融合的3D检测提供了新思路,适用于自动驾驶等场景。

2025-08-19 17:35:26 819

原创 【论文阅读】BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View网络模型详解

BEVDET是一种基于鸟瞰图(BEV)的3D目标检测模型,专为自动驾驶设计。该模型通过LSS模块将多视角图像特征转换到统一BEV空间,采用类似CenterPoint的检测头输出3D边界框。关键技术包括:1)解耦的图像/BEV空间数据增强策略,通过旋转、缩放保持空间一致性;2)Scale-NMS方法,根据类别调整物体尺寸以优化检测结果。实验在nuScenes数据集上达到0.397 mAP。模型支持多模态融合和时序信息处理,适用于实时感知、高精地图构建等场景。未来可优化时序建模和计算效率。

2025-08-14 15:44:15 1030

原创 【第13话:感知算法】库位与可行驶区域检测:自主泊车场景中的检测及语义分割方法

本文提出了一种自动泊车系统中的泊车库位线检测方法,通过逆透视映射(IPM)将车辆摄像头图像转换为鸟瞰视图,消除透视变形。该方法结合目标检测和语义分割模型,先定位库位线候选区域,再生成像素级精确掩码。后处理步骤将掩码转换为结构化输出,包括停车位边界多边形和可行驶区域掩码。整个流程采用深度学习模型和计算机视觉技术,可实现高精度的泊车环境感知,为自动泊车系统提供可靠支持。

2025-08-12 17:54:07 957

原创 【论文阅读】BEVFormer论文解析及Temporal Self-Attention、Spatial Cross-Attention注意力机制详解及代码示例

BEVFormer是一种基于时空变换器的多摄像头鸟瞰图生成模型,其核心创新在于时空注意力机制的设计。模型通过空间交叉注意力(Spatial Cross-Attention)将多视角2D特征映射到BEV空间,同时利用时间自注意力(Temporal Self-Attention)融合历史帧信息。这两种注意力机制的计算复杂度分别为O(N×M)和O(T²),分别负责空间特征聚合和时间运动建模。实验表明,该方法在nuScenes数据集上实现了SOTA性能,mAP达到56.9%,NDS指标达62.8%。该技术为自动驾驶

2025-08-11 16:30:30 1102

原创 【工具相关】AddressSanitizer(ASan)介绍及详细使用方法和举例说明

摘要: AddressSanitizer(ASan)是一种高效的内存错误检测工具,通过影子内存机制实时监控程序运行,可精准捕获缓冲区溢出、释放后使用(UAF)、内存泄漏等常见内存问题。使用时需在Clang/GCC编译中添加-fsanitize=address标志,运行时错误报告将包含错误类型和代码位置。典型优势包括低性能损耗(约2倍减速)和多平台支持,但存在内存开销较大的局限。示例中,ASan成功检测到数组越界访问并定位至源代码行,验证了其在开发调试中的实用性。该工具已集成至现代C/C++工具链,成为内存安

2025-08-11 10:29:35 1186

原创 【第12话:感知算法】图像分割:深度学习图像分割模型介绍入门及常用模型详解

本文系统介绍了深度学习图像分割的主流模型及其技术演进。从FCN首次实现端到端像素预测,到U-Net的对称编解码结构,再到DeepLab系列的空洞卷积和ASPP多尺度特征提取,以及Mask R-CNN的实例分割方法,最后探讨了基于Transformer的前沿模型。文章通过结构图、数学公式和对比表格,详细分析了各模型的核心创新、损失函数设计及适用场景,并指出当前研究热点包括轻量化设计、3D分割和弱监督学习方向,为模型选择提供了精度、速度和硬件约束的权衡参考。

2025-08-09 11:02:14 834

原创 【第2.1话:基础知识】基于Ubuntu的ROS环境搭建与车辆可视化编程实践:初学者指南及RVIZ应用(含作业及代码)

本文提供了在Ubuntu系统上搭建ROS环境并实现车辆可视化编程的详细指南。主要内容包括:1)Ubuntu系统准备与ROS安装(推荐Noetic版本);2)使用URDF创建简单车辆模型;3)通过RVIZ工具可视化车辆模型;4)可选的运动模拟Python脚本实现。文章还包含常见问题解决方案和进阶应用建议,如集成传感器和Gazebo仿真。适用于ROS初学者,所有步骤基于官方文档验证,强调实践操作与社区资源利用。

2025-08-09 10:41:09 717

原创 【第11话:感知算法】目标检测:深度学习目标检测模型介绍入门及常用模型详解

目标检测是计算机视觉的核心任务,需同时完成目标定位(输出边界框坐标)和目标分类(识别类别)。一、两阶段检测模型(精度优先)核心流程:首先生成候选区域(Region Proposals),再对候选区域分类和回归。流程(1) 使用选择性搜索生成约2000个候选框(2) 每个候选框通过CNN提取特征(3) SVM分类 + 边界框回归创新点:首次将CNN引入目标检测缺点:计算冗余(每个候选框独立计算CNN),速度慢改进整图输入CNN生成特征图。

2025-08-08 12:43:41 892

原创 【第10话:感知算法】图像分类:深度学习图像分类网络模型介绍及多个常用模型详解

图像分类是计算机视觉领域的核心任务之一,其目标是将输入的图像分配到预定义的类别标签中。例如,给定一张动物图片,系统需判断其属于"猫"、"狗"或"老虎"等类别。

2025-08-08 09:17:24 739

原创 【第9话:感知算法】深度学习神经网络模型基础知识概念入门简介

本文介绍了深度学习的基础概念和核心原理。深度学习是基于多层神经网络的机器学习方法,能够自动提取数据特征。文章详细讲解了神经网络的组成(输入层、隐藏层、输出层)、激活函数(Sigmoid、ReLU等)的作用、前向传播和反向传播的计算过程,以及损失函数和优化算法。此外,还介绍了CNN、RNN等常见网络类型及其应用场景。深度学习在图像识别、自然语言处理等领域有广泛应用,但需要大量数据和计算资源。建议初学者通过实践项目逐步掌握这些基础知识。

2025-08-07 15:41:47 913

原创 【第7话:相机模型3】自动驾驶IPM图像投影拼接技术详解及代码示例

IPM图像投影拼接技术通过逆透视映射将透视视图转为鸟瞰图并拼接,广泛应用于自动驾驶、监控等领域。其核心是利用单应矩阵消除透视畸变,结合特征匹配和图像融合实现无缝拼接。关键技术包括单应矩阵估计($u=H^{-1}p$)、特征点匹配和变换矩阵计算。该技术虽能提供直观的环境表达,但对相机标定精度要求高,计算开销大,且动态场景易产生伪影。OpenCV等库可简化实现流程,但需根据实际场景优化参数。

2025-08-07 11:20:55 756

原创 【第16话:定位建图】车辆状态估计:IMU、轮速脉冲、GNSS、图像特征的EKF融合车辆状态估计公式推导及python代码举例

本文推导了基于扩展卡尔曼滤波(EKF)的多传感器融合定位方法,结合IMU、轮速脉冲、GNSS和图像特征数据,构建16维状态向量(位置、速度、四元数姿态及IMU偏差)。通过EKF框架实现预测(IMU运动学模型)和更新(轮速脉冲、GNSS、图像特征观测)的迭代优化,详细给出了状态转移方程、雅可比矩阵计算及观测模型公式,并讨论了各传感器的噪声处理方法,为高精度定位系统提供理论依据。

2025-08-06 14:09:24 539

原创 【第6话:相机模型2】相机标定在自动驾驶中的作用、相机标定方法详解及代码说明

摘要: 相机标定是自动驾驶系统的关键技术,通过确定相机内参(焦距、主点)和外参(位姿)实现精准环境感知。其核心作用包括:将像素坐标转换为真实世界坐标、支持多传感器融合、校正镜头畸变及辅助实时决策。标定方法采用张正友标定法,步骤包括:使用棋盘格标定板采集多角度图像、检测亚像素级角点、计算内参和畸变系数(通过最小化重投影误差)、求解外参(如PnP算法),最后验证标定精度。文中提供了基于OpenCV的Python代码示例,涵盖角点检测、参数计算和畸变校正流程,并强调实际应用中需结合实车测试与定期标定优化。该技术为

2025-08-06 14:02:19 1279

原创 【第5话:相机模型1】针孔相机、鱼眼相机模型的介绍及其在自动驾驶中的作用及使用方法

相机模型是计算机视觉的核心概念,用于描述真实世界到图像平面的投影关系。针孔相机模型基于小孔成像原理,适用于理想场景但视野有限;鱼眼相机模型则能捕捉广角视野,但需处理畸变。在自动驾驶中,相机模型通过标定、畸变校正和图像处理实现环境感知、物体检测和场景理解。多相机系统可覆盖360度视野,与激光雷达等传感器融合提升感知能力。相机模型是自动驾驶视觉感知的基础,未来将向更高效的畸变模型和深度学习融合方向发展。

2025-08-06 13:41:30 902

原创 【第2话:基础知识】 自动驾驶中的世界坐标系、车辆坐标系、相机坐标系、像素坐标系概念及相互间的转换公式推导

本文系统介绍了自动驾驶系统中常见的坐标系及其转换方法。主要内容包括:1)定义世界坐标系、车辆坐标系、传感器坐标系等关键坐标系;2)推导坐标系间的转换公式,包括世界到车辆、车辆到传感器的转换,以及相机到像素坐标系的投影变换;3)构建完整的转换链示例,展示如何将世界坐标转换为像素坐标。推导过程采用齐次坐标和矩阵变换,确保数学严谨性。文章还强调了旋转矩阵计算、误差处理等注意事项,为自动驾驶系统的定位、感知等任务提供理论基础。

2025-08-05 12:40:51 1020

原创 【第4话:基础知识】从卡尔曼滤波KF到扩展卡尔曼滤波EKF公式详细推导及代码举例说明

扩展卡尔曼滤波(EKF)通过局部线性化处理非线性系统状态估计问题。本文详细推导了从卡尔曼滤波(KF)到EKF的公式转换过程:首先回顾线性KF的预测和更新步骤,然后针对非线性系统引入一阶泰勒展开近似,利用雅可比矩阵实现状态转移函数f和观测函数h的线性化。EKF核心公式包括非线性状态预测、基于雅可比矩阵的协方差传播、以及线性化观测更新。推导过程严谨,最后给出了EKF的完整算法流程和与KF的关键差异,为非线性系统状态估计提供了理论基础。

2025-08-05 12:27:53 784

原创 【第3话:基础知识】从贝叶斯滤波到卡尔曼滤波KF公式详细推导及代码举例说明

本文详细推导了从贝叶斯滤波到卡尔曼滤波的完整过程。卡尔曼滤波作为贝叶斯滤波在高斯线性系统下的特例,通过预测和更新两个步骤实现状态估计。推导从状态空间模型出发,在预测步计算先验概率分布,在更新步结合观测数据得到后验分布。最终得到卡尔曼增益的闭式解,并给出完整的迭代公式。文中还提供了Python实现示例,展示了卡尔曼滤波在实际应用中的实现方式。该推导过程严谨,既保持了理论深度,又通过代码示例增强了实用性。

2025-08-05 12:24:30 819

yolov10s.onnx

yolov10s的onnx模型原版 可转tensorrt rknn等模型

2025-08-11

rknn-toolkit-lite2-1.6.0-cp38-cp38-linux-aarch64.whl

rknn_toolkit_lite2-1.6.0-cp38-cp38-linux_aarch64.whl rk3566模型部署板端python38 的whl

2025-08-11

【计算机视觉】基于Bisenet的地下泊车场景仿真数据集训练与推理:环境配置、常见问题及关键参数解析

内容概要:本文档详细介绍了地下泊车场景仿真数据集SUPS的获取方式及其在Bisenet模型训练与推理中的应用。首先阐述了数据集的来源与下载途径,包括百度网盘和飞书两种渠道,并指出数据集规模较大(约6.39G)。接着描述了环境配置方法,建议使用Anaconda创建虚拟环境来简化安装过程,同时提供本地GPU训练和云平台AutoDL两种选择。对于Bisenet训练部分,文档指出了具体的文件处理步骤,如删除CSV文件首行、修改配置文件中的分类数量及路径设置等,以及训练和推理的具体命令行操作。最后列举了一些常见错误及其解决办法,例如torchrun命令找不到、cuDNN错误等问题,还列出了几个重要的训练参数,如迭代次数、学习率、批次大小等。; 适合人群:有一定深度学习基础,对计算机视觉领域感兴趣,特别是希望利用Bisenet进行图像分割任务的研究人员或工程师。; 使用场景及目标:①掌握地下泊车场景仿真数据集SUPS的获取方法;②熟悉基于Bisenet模型的训练和推理流程;③解决训练过程中可能出现的技术难题;④调整关键参数以优化模型性能。; 阅读建议:读者应按照文档提供的步骤逐步操作,确保每个环节都能正确执行。遇到问题时可以参考文档中提到的解决方案,同时注意检查所用软件版本是否符合要求。此外,建议读者根据自身硬件条件适当调整训练参数,以获得最佳效果。

2025-08-09

【计算机视觉】 基于IPM的全景相机图像拼接算法实现:自动化停车系统中的关键投影技术开发与应用

内容概要:本文档是关于逆向透视映射(IPM)图像拼接的作业说明。IPM 投影对于全景摄像头在自动泊车系统中至关重要。作业要求完成全景摄像头在 IPM 图像中的投影算法。文档提供了四个来自模拟鱼眼相机的图像以及相机的内外参数,需要完成投影算法的实现并展示最终的 IPM 投影结果。具体步骤包括找到代码中标记为TODO的部分,完成这些部分的实现,然后编译和运行代码,确保最终效果与提供的示例图像一致。; 适合人群:计算机视觉、自动驾驶或相关领域的学生或研究人员,尤其是对图像处理和自动泊车系统有兴趣的人士。; 使用场景及目标:①学习和实践逆向透视映射(IPM)投影算法;②理解全景摄像头在自动泊车系统中的应用;③掌握鱼眼相机图像处理技术。; 阅读建议:此作业不仅涉及代码实现,还要求提交包含代码解释和最终IPM图像结果的PDF文件。因此,在实践中要注意代码的可读性和注释,同时记录实验过程和结果以便撰写报告。

2025-08-09

自动驾驶基于扩展卡尔曼滤波的车辆状态估计实现:预测与更新模型及ROS环境下的轨迹可视化系统设计

内容概要:本文档为《车辆状态估计作业II》,主要内容是通过扩展卡尔曼滤波器(EKF)进行车辆状态估计的实现。具体任务包括:下载vehicle_state_estimation.zip压缩包,根据运动模型(IMU+轮速)完成EkfPredict()函数预测部分,根据测量模型(GPS)完成EkfUpdate()函数更新部分。然后,构建项目并运行节点,在RVIZ中可视化估计轨迹,预期结果是真实轨迹(红色)与估计轨迹(绿色)应非常接近。最后,撰写报告解释EKF函数的完成方法,并附上源代码和RVIZ中估计结果的截图。; 适合人群:具备一定机器人学、自动化控制理论基础,对ROS系统有初步了解的学生或研究人员。; 使用场景及目标:①学习如何基于ROS平台实现EKF算法进行车辆状态估计;②掌握运动模型和测量模型在EKF中的应用;③熟悉RVIZ工具的使用,能够将算法结果可视化展示。; 阅读建议:读者需要按照文档步骤逐步操作,注意理解每个函数的具体功能和实现细节,同时参考相关资料加深对EKF的理解,确保最终实现的效果满足预期要求。

2025-08-09

【自动驾驶领域】自主代客泊车(AVP)理论与实践课程大纲:涵盖定位、感知、规划与控制技术

内容概要:本文介绍了自主代客泊车(AVP)的理论与实践,由上海交通大学溥渊未来技术学院副教授秦通主讲。课程分为十个章节,涵盖了从自主停车的基础概念到具体技术实现的各个方面。课程首先介绍了自主停车的意义及其应用场景,如减少停车难度、节省时间和优化资源利用。接着详细讲解了坐标变换、运动估计、相机模型、语义分割、停车场地图构建、语义定位、轨迹规划以及车辆控制等关键技术。每个章节都配有相应的作业,帮助学生巩固所学内容。最后,课程还包括一个最终模拟项目和前沿分享,使学生能够全面掌握AVP的技术体系。 适合人群:对自动驾驶和智能交通领域感兴趣的高校学生、研究人员及工程师,尤其是具备一定编程基础和技术背景的学习者。 使用场景及目标:①了解AVP的基本原理和应用场景;②掌握自主停车系统的核心技术,如坐标变换、感知、规划和控制;③通过实际项目操作,提升动手能力和解决实际问题的能力;④为未来从事自动驾驶相关研究或工作打下坚实基础。 其他说明:本课程要求学员具备Linux系统操作、C++编程技能、ROS使用经验以及Python/Pytorch的基础知识。此外,硬件方面需要一台配置有Nvidia GPU的计算机,以支持深度学习相关的实验。课程还提供了丰富的参考资料和学习材料,帮助学生更好地理解和掌握相关知识点。

2025-08-09

【自动驾驶泊车域专题课程-作业一答案代码】基于Ubuntu的ROS环境搭建与车辆可视化编程实践:初学者指南及RVIZ应用

【自动驾驶泊车域专题课程--作业一答案代码】基于Ubuntu的ROS环境搭建与车辆可视化编程实践:初学者指南及RVIZ应用

2025-08-09

【自动驾驶泊车域专题课程-作业一】基于Ubuntu的ROS环境搭建与车辆可视化编程实践:初学者指南及RVIZ应用

内容概要:本文档是关于车辆可视化的作业指南,主要分为两部分内容。第一部分针对Linux/ROS初学者,详细介绍了如何在Ubuntu 20.04上安装和配置ROS Noetic环境,并提供了多个初学者级别的ROS教程链接,涵盖从安装配置环境到创建和构建ROS包、理解ROS节点、主题和服务等内容。第二部分专注于RVIZ可视化,指导用户如何在本地计算机上运行并可视化车辆,包括将源代码放入工作空间、启动roscore、运行节点以及打开RVIZ等步骤。此外,还涉及一个编码任务,要求修改GeneratePose()函数中的x、y和yaw参数,使车辆能够按照指定形状行驶(如矩形、八字形或三角函数曲线)。 适合人群:对Linux和ROS有初步了解的初学者,特别是希望深入学习ROS系统及其应用的学生或工程师。 使用场景及目标:①帮助用户掌握ROS环境的搭建与配置;②让用户熟悉ROS的基本概念和工具,如节点、主题和服务;③通过实际操作RVIZ实现车辆的可视化,增强对ROS的理解;④通过修改代码实现特定轨迹的车辆运动,提高编程能力。 阅读建议:由于本指南包含了大量实践操作的内容,建议读者按照步骤逐一进行尝试,并结合官方提供的教程资源,确保每个环节都能顺利执行。对于编码任务部分,应先理解相关数学原理再动手实践,以便更好地完成任务。

2025-08-09

minist 全部数据集

minist 全部数据集

2025-07-30

Music-Downloader-master.zip

Music-Downloader-master 的相关信息如下: ‌GitHub 仓库‌ 项目地址:kyledong/Music-Downloader‌1 描述:一个音乐下载工具,支持从多个平台下载音乐,界面简洁且功能实用。 更新记录:最近一次更新于 2019 年 6 月 30 日,修复了部分文件下载问题‌1。 ‌其他相关项目‌ ‌netease-music-downloader‌:支持网易云音乐的单曲/专辑下载,自动创建目录并跳过已下载文件,可通过 npx 直接运行‌2。 ‌Apple Music Downloader‌:需配合 MuMu 模拟器或 WSL 使用,支持高分辨率无损音乐下载,需配置 Apple Music 账号‌3。 ‌Macsome YouTube Music Downloader 替代方案‌:包括 yt-dlp、youtube-dl 等开源工具,支持 YouTube 音乐转换和下载‌4。 ‌注意事项‌ 部分工具需科学上网或特定环境(如模拟器、WSL)‌23。 使用前需确认版权合规性,避免下载受保护内容‌24。

2025-07-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除