自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(58)
  • 收藏
  • 关注

原创 ROS1导航状态机与ROS2导航行为树

ROS1和ROS2导航框架中用到的各种底层算法基本相同,比如代价地图,全局路径规划和局部路径规划等,它们最大的不同在于整个系统框架设计。

2024-07-14 22:25:56 674

原创 机器人前沿--PalmE:An Embodied Multimodal Language Model 具身多模态大(语言)模型

利用多任务数据训练,最终可对单个任务起促进作用。(但这个实验博主觉得不太严密,缺乏一个full only robot data实验)我们提出通过将图像等多模态信息注入到具身语言模型中来构建具身多模态大语言模型。实验表明现成的最先进的视觉语言模型仅接受一般 VQA 和字幕任务的训练还不足以用于具身推理任务,也有近期的工作表明了其在可供性评估上的局限性,为了克服这些局限性,我们提出PaLM-E,一个单一模型,能够在模拟和现实世界中控制不同的机器人,同时具备一般视觉语言任务能力。

2024-07-14 21:25:56 1062

原创 TEB局部路径规划算法代码及原理解读

该图优化以g2o优化框架实现,以机器人在各个离散时刻的位姿和离散时刻之间的时间间隔为顶点,约束其中的加速度、速度,到达时间和到障碍物的距离等值,优化目标是使得机器人在其运动学约束下绕开障碍物最快到达目标点,实现了高效的局部路径规划功能。对于每一个动态障碍物,所有TEB位姿都会被考虑进去,与静态障碍物的处理不同之处在于,会根据障碍物的速度和时间对未来其位置进行预测,以达到动态避障的目的。图优化涉及到多种约束边时,各自的权重很重要,代码中对各个权重做了注释,也能很好地看出各个约束边的作用。

2024-07-13 23:09:09 1852

原创 ROS1 DWB 与 ROS2 DWA 比较

DWA/DWB采样时,采样速度会倾向于目标速度,这使得速度只会单调变化(如单调减少,或者单调增加),对于线速度而言没什么明显不合适,但对于旋转而言,则造成每条采样轨迹只能朝一个方向延伸,如下图所示(黑色表示不合理采样轨迹,绿色无箭头附着的表示合理轨迹,绿色有箭头附着的为想跟随的参考轨迹),不适用于Z字形连续弯道和需要频繁转向的动态避障,这也是一个值得优化的点。有点则在于算法简单高效,低动态场景下适用。评分函数:使用每一个预设加载的评分函数对轨迹进行评分,然后进行加权求和,评分越低,代表该轨迹越优。

2024-07-13 23:05:07 490

原创 软件建模概要

概念:给出了一组用例,参与者以及他们之间的关系。以使用者如何使用系统案例为核心,既识别清楚价值客户群体,又描述了系统的对外接口功能,是静态图,描述了系统在干什么。软件建模体现了软件设计的思想,在需求和实现之间架起了一座桥梁,通过模型指导软件系统的具体实现。模型不是软件的完备表示,而是所研究系统的一种抽象。概念:依据系统结构从静态观点描述系统的视图,它定义系统中的对象和类及类之间的关系,以及类的内部结构,及类的属性和操作。描述系统元素的状态条件和响应,反映了类对象可能具有的状态,以及引起状态变化的事件。

2024-07-13 22:56:58 269

原创 CMU-LOAM系列论文研读(二)TARE: A Hierarchical Framework for Efficiently Exploring Complex 3D Environments

主页我们提出一种在复杂的三维环境中自主探索的方法,该方法取得了比当前的技术水平更快的探索效果。本方法使用层次结构框架——一个层次维护稠密数据并计算出局部规划范围内的详细路径,而另一层级则维护稀疏的数据并计算全局尺度上的粗糙路径。这样的框架是基于如下的观察–在靠近机器人的地方,细节处理是最有效的,并通过权衡远距离范围的细节来提高计算速度。该方法优化了整体探索问题中的路径长度,并产生动力学上可行灵活的局部路径。在实验中,我们的系统在无人机和地面车平台上自主探索高难度的室内和室外环境复杂程度。

2024-07-13 22:49:18 549 1

原创 CMU-LOAM系列论文研读(一)DSVP: Dual-Stage Viewpoint Planner for Rapid Exploration by Dynamic Expansion

本论文提出了一种有效的探索高度复杂环境的方法。该方法包含两个规划阶段-在探索阶段延伸边界图,在迁移阶段将机器人转移到环境中的不同子区域。探索阶段在环境的自由空间中使用快速探索Random树(RRT),在迁移阶段则在已建好的环境中维持一个全局图。两阶段都在重新规划阶段进行动态扩展。在各种具有挑战性的仿真和实际中,将该方法与现有的最先进的方法进行了比较,实验比较表明,我们的方法是可行,且使用更少的处理资源,探索空间的效率是现有方法的两倍。

2024-07-13 22:43:57 804 1

原创 基于3D感知的端到端具身操作论文导读

3D端到端操作论文导读

2024-07-13 15:43:01 1234

原创 视觉SLAM与定位之一前端特征点及匹配

视觉特征点及匹配

2024-07-10 14:45:24 685

原创 基于视觉的具身导航

基于视觉的具身导航是指 输入机器人观测的当前图像ot​和目标图像oG​,输出当前时间步的控制动作ut​,最终到达指定地点的算法流程。

2024-07-10 08:54:44 1132

原创 RT2-使用NLP的方式去训练机器人控制器

RT-2在训练方式上带来了很大的创新,但如何使得其可以真正落地应用,作者指出了一些路径,如果有团队肯下大力气攻坚,也还是有希望的。更重要的是在新物体,背景和环境上的泛化能力如何?Pali-X:使用ViT-22B处理图像,接收n张图像,获得n x k的tokens(k是图像的patch数量),图像tokens经过一个projections层,然后进入一个编码-解码的backbone(32B 参数和50层,类似于UL2,联合处理图像和文本embeddings,采用自回归方式输出tokens),

2024-07-09 22:31:06 899

原创 Mobile ALOHA前传之VINN, Diffusion Policy和ACT对比

对比mobile aloha三大模型优劣特点对比

2024-07-09 22:00:23 1328

原创 Mobile ALOHA: 你需不需要一个能做家务的具身智能机器人

机器人利用专家数据进行模仿学习可以学习到很多传统方法(依赖于抓取位姿估计和运动规划)所做不到的任务,比如使用工具、叠抹布、整理家务等,打开了通往通用机器人的希望之门。

2024-07-07 12:14:51 868

原创 伯克利、斯坦福和CMU面向具身智能端到端操作联合发布开源通用机器人Policy,可支持多种机器人执行多种任务

不同于LLM或者MLLM那样用于上百亿甚至上千亿参数量的大模型,具身执行大模型并不追求参数规模上的大,而是指其能吸收大量的数据,执行多种任务,并能具备一定的泛化能力,如笔者前博客里的RT1。目前该领域一个前沿工作是,该工作由美国Robot Learning顶尖高校(UC Berkeley,Stanford University,Carnegie Mellon University)联合推出,性能超过RT1,值得关注。

2024-07-05 17:16:51 843

原创 斯坦福提出首个开源视觉语言动作大模型OpenVLA

现有的VLA(Vision-Language-Action )模型具有这些局限性:1)大多封闭且开放;2)未能探索高效地为新任务微调VLA的方法,而这是VLAs被采用的关键组成部分。为此本工作开发了OpenVLA,一个基于97万条Open X-Embodiment机器人任务的7B参数开源VLA模型,它为通用机器人操作策略设定了新的技术前沿,它支持直接控制多台机器人,并且可以通过参数高效微调快速适应新的机器人配置。

2024-07-04 20:36:16 2606 2

原创 具身智能controller---RT-1(Robotics Transformer)(上---方法介绍)

迁移学习在计算机视觉领域已有很多研究,但在端到端的机器人学习控制的领域研究还比较少,本论文提出通用的机器人模型一个关键点在于开放式的(open-ended)任务不可知的(task-agnostic)训练, 有着高容量(high-capacity)的网络结构,可以吸收所有不同种类的机器人数据。论文里的核心问题:可否利用大量的机器人任务数据训练一个大规模多任务骨干模型?这个模型是否会从别的领域观测获得好处, 表现出对新任务、环境和对象的zero-shot能力?

2023-07-26 17:20:30 2340

原创 具身智能controller---RT-1(Robotics Transformer)(中---实验介绍)

为了进一步验证泛化能力,我们在厨房环境中进行实验,首先根据真实厨房环境与训练环境的差异,将其划分成L1-L3三个等级,L1表示对新的案台上面布局和不同光照条件的通用性,L2表示额外有未见过的诱导物体,L3表示额外有较大的新未见任务设置,未见物体或者未见位置,然后对比不同方法在这三种场景下的成功率。机器人训练数据的采集是在一个环境下的,示教共13个机器人采集,然后会放在另外两个不同的环境中进行验证。:在21个未见的指令任务上进行了测试,这里的未见是指组合任务未见,但拆分的动作和目标对象是见过的;

2023-07-26 17:08:12 1591

原创 ICRA2022 SLAM进展---激光SLAM

ICRA2022 slam论文简单导读,未完待续

2022-08-14 12:14:55 4622 1

原创 激光SLAM论文简单导读--LOAM、VLOAM、LeGO-LOAM、LIO-SAM、LVI-SAM、LIMO、LIC-FUSION、TVL-SLAM、R2LIVE、R3LIVE

激光SLAM论文导读--LOAM、LeGO-LOAM、LIO-SAM、LIC-给FUSION开篇巨作LOAM (CMU张辑, RSS 2014)

2022-05-31 11:14:45 4086 4

原创 C++多线程

课程地址

2021-12-11 14:08:32 1046

原创 深入理解计算机系统第五章------优化程序性能

课程网站编译器本身会对代码进行一定层次的优化, 但某些情况下考虑到潜在的风险,编译器并不会执行优化,此时就需要程序员自己根据实际情况调整代码,提高代码的运行效率。优化层次有algorithm, data representations, procedures, and loops。代码优化需要掌握的知识点:How programs are compiled and executed 程序如何编译和运行?How modern processors + memory systems operate 现代

2021-10-09 19:10:25 822

原创 SOFT-SLAM系列论文解读

SOFT-SLAM2在KITTI数据集上霸榜了,作为视觉方案的定位方法,取得了超过激光-视觉融合的方法,凸显了该算法的优越性,所以赶紧紧跟潮流,研读相关论文。SOFT-SLAM: Computationally efficient stereo visual simultaneous localization and mapping for autonomous unmanned aerial vehicles...

2021-05-25 11:54:04 2522 1

原创 状态估计第三讲:非线性高斯系统的状态估计问题

本章讲解非线性非高斯状态下的状态估计问题。重点讲解非线性非高斯的状态转移、离散时间的递归估计和离散时间的批量估计三部分。非线性系统的贝叶斯推断举例:从双目视差推断深度距离。Matlab蒙特卡洛仿真程序...

2021-05-19 09:20:58 1842

原创 OpenVSLAM代码解读--视觉跟踪Tracking_Module

Tracking_Module()是该SLAM的前端,主要任务是得到新获取图像的视觉特征与局部地图中的路标点之间的匹配关系,进一步通过优化法PnP计算得到当前时刻相机位姿,并利用一定的规则选择关键帧。流程如下:分层提取ORB特征点,计算描述子:此步骤将灰度图像(如果输入为彩色图像,将转换成灰度图像)信息转换成包含ORB特征点和描述子的图像帧(frame)数据,首先通过下采样得到图像的金字塔,其中原图为金字塔0层,然后在各层级金字塔上提取ORB特征点并计算对应描述子。(猜测:越低层级金字塔的特征点,距离相

2021-04-17 21:39:01 754

原创 手眼标定Hand-eye-calibration环境配置踩坑及解决方案

ethz-asl/hand_eye_calibration github网站这两天一直在ubuntu16.04上配置手眼标定的环境,现将过程中的踩坑及解决办法记录如下:1,下载问题: 必须翻墙才行, 即使源码可以下载,但编译的时候,会要求自动下载opencv、glog_catkin等功能包, 内网是没法下载的;2,完全按照官网的方式进行,编译过程中可能会遇到代码中的bug问题,比如catkin_build error: ‘loadFromYaml’ is not a member of ‘asl

2021-03-19 22:48:15 1737

原创 Python脚本: 将文件形式的图像、IMU数据转换成rosbag包

convert image and imu dataset to a rosbag#!/usr/bin/env python"""Transform image and imu files to a ros bag fileusage convert_files_to_bag.py [directory]file folder: [color] [depth] IMU.txt TIMESTAMP.txtexample: FMDatasetAuthor: Ming Ouyang""

2021-02-28 23:21:37 3056 6

原创 对极约束的几何认识

对极约束推导过程如上图,两个相机中心分别为 O1O_1O1​、O2O_2O2​,点P在两幅图像中的投影点分别为p1p_1p1​、p2p_2p2​,连线 O1O_1O1​p1p_1p1​ 和连线O2O_2O2​p2p_2p2​在三维空间中会相交于点 P,点O1O_1O1​、O2O_2O2​ 、P 三个点可以确定一个平面,称为极平面(Epipolar plane)。O1O_1O1​O2O_2O2​ 连线与像平面 I1I_1I1​、I2I_2I2​ 的交点分为 e1e_1e1​、e2e_2e2​, 称之为极点

2021-01-24 15:53:23 373

原创 VIO 初始化系列3------ORB-SLAM3 与VINS-Mono初始化比较

参考博客:VIO 初始化系列1------ORB_SLAM3 IMU 初始化代码解读VIO 初始化系列2------VINS-Mono初始化

2021-01-13 15:21:54 2819

原创 VIO 初始化系列2---VINS-Mono初始化

参考论文:VINS-Mono: A Robust and Versatile Monocular Visual-Inertial State EstimatorRobust initialization of monocular visual-inertial estimation on aerial robots参考博客:VINS-FUSION源码框架及C++知识点总结参考课程:从0开始手写VIO在参考博客里有介绍过初始化部分的大致流程,趁着现在要做VIO方面的项目, 再来仔细梳理该初始化过程。深

2021-01-12 15:12:31 481

原创 VIO 初始化系列1------ORB_SLAM3 IMU 初始化代码解读

1,数据的获取

2021-01-10 22:40:08 4605 2

原创 论文导读: Adaptive Robust Kernels for Non-Linear Least Squares Problems

参考论文: Adaptive Robust Kernels for Non-Linear Least Squares Problems本论文针对slam中的后端非线性优化设计了一个自适应的核函数。1, 常用核函数核函数可用来处理outliar, 在优化中给,残差较大的可视为有更大的概率是outliar, 优化过程中会被赋予更小的权重。 常用的核函数有pseudo-Huber/L1-L2, Cauchy, Geman-McClure, Welsh. 常用的核函数:这几个核函数 可以写成一个通用的

2021-01-01 13:48:09 476

原创 基于RGBD的平面提取方法总结

Real-Time Plane Segmentation using RGB-D Cameras:改论文是基于depth图像做的平面检测, 根据depth得到的三维点, 根据三维点所在邻域平面法向量以及平面距原点的距离,对其进行聚类, 具体流程如下:利用depth点上下左右的点,计算出该点邻域平面的法向量;将所有的点根据上述求出来的三维法向量, 分配到三维的voxel grid里去, 这也就是第一步分类(Initial segmentation in normal space);上述分好的类里再根

2020-12-12 15:33:33 2990 3

原创 编程踩坑记录

编成过程中遇到的坑以及经验,特此记录

2020-11-07 15:57:40 172

原创 VINS marginalization源码分析

理论知识:SLAM中的marginalization 和 Schur complement深入理解SLAM中的MarginalizationVINS6边缘化DSO 中的Windowed Optimization边缘化留下的先验信息有哪些://VINS边缘化有两个策略,如果在sliding window中第二近的frame是关键帧则丢弃sliding window中最老的帧、否则丢弃该帧。无论丢弃哪一帧,都需要边缘化。 if (marginalization_flag == MARGIN_

2020-08-06 20:58:09 707

原创 三维点云处理技术四:三维点云数据处理基础

三维点云处理技术三:三维点云数据处理基础PCL介绍PCL点云数据结构PCL特性PCL模板库PCL处理一般流程点云滤波方法常见点云滤波方法体素滤波器:统计滤波器点云组织形式与最近邻搜索八叉树KD Tree点云分割、拟合、聚类方法分割拟合语义分割来源:睿慕课《三维点云处理技术和深度学习在三维点云处理中的应用》PCL介绍点云(Point Cloud)是离散点的集合,不仅包括三维点的位置信息,有时也包含点的材质反射信息和RGB信息,广泛应用于机器人抓取、识别、定位与运动规划中。PLC库是专门的处理点云运算的库

2020-05-19 17:37:51 4974 1

原创 Apollo进阶课程第七章:感知

感知概貌:问题范围感知概貌:多个维度看问题感知传感器分类点云感知:视觉感知:CNN检测:场景分割;可行驶区域检测;车道线检测;红绿灯检测。红绿灯检测:后处理:感知与机器学习:感知未来:...

2020-05-16 21:57:48 369

原创 Apollo进阶课程第六章:Appolo ROS

参考资料:ROS官网ETHZ ROS课程ROS的基本知识:ROS TF: 描述坐标系旋转的功能节点Ros service:调试技巧:rqt:可视化rqt=rosrun rqt_gui rqt_guirosrun rqt_image_view rqt_image_view 可视化图像rosrun rqt_multiplot rqt_multiplot可视化二维数值rosrun rqt_graph rqt_graph 可视化ROS节点之间的计算图rosrun rqt_consol

2020-05-16 15:18:11 360

原创 算法导论第十二章:二叉查找树

**定义:**查找树是一种数据结构,它支持多种动态集合操作,如查找、插入、删除等,既可以用作字典,也可以用作优先队列。二叉树的遍历:二叉树的遍历分为前序遍历、中序遍历和后序遍历,可以采用递归的方法遍历,遍历一棵含n个节点的二叉树时间复杂度为O(n)。中序遍历:先遍历左子树,然后遍历根节点,最后遍历右子树。先序遍历:先遍历根节点,然后左子树,最后右子树。后序遍历:先遍历左子树,然后右子树,最后根节点。二叉树查找:先从根节点开始,查找值大于节点值,则往右子树查找,小于则往左子树查找,直到找到值与查

2020-05-13 16:36:01 262

原创 三维点云处理技术三:三维空间变换

三维点云处理技术三:三维空间变换刚体运动变换旋转矩阵推导与性质坐标系旋转欧拉角旋转矩阵的轴角四元数刚体运动变换总结:空间几何变换来源:睿慕课《三维点云处理技术和深度学习在三维点云处理中的应用》刚体运动变换表示旋转变换的参数形式:旋转矩阵,轴角,欧拉角和四元数。旋转矩阵推导与性质两个坐标系a和b,坐标系b各个坐标轴b1、b2、b3b_1、b_2、b_3b1​、b2​、b3​在坐标系a中的表示为:b1=R11a1+R21a2+R31a3b_1=R_{11}a_1+R_{21}a_2+R_{31}a

2020-05-12 23:29:50 2422 2

原创 Apollo进阶课程第四章:高精地图

高精地图特点:1,表述的完整性:把能影响人类驾驶行为的特性全都表示出来,比如交通标志、车道线等;2,实时性;3,高精是指描述内容全面。高精地图功能:辅助定位、感知、预测和规划,弥补系统性缺陷,使得机器在人类构造的交通环境下运行。高精地图格式规范-OpenDrRIVE业界高精地图产品:诺基亚HERE地图—基于16线激光雷达。MobileEye—基于camera,众包系统。Google-waymo:TomTomAppolo2.5采集方案激光(64线+16线)+相机+RTK+IMU

2020-05-10 17:55:18 457

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除