Flying Youth-CSDN博客

原创基于GS(Gaussian Splatting)的机器人Sim2Real2Sim仿真平台

RoboGSim是一个基于3DGS和IsaacSim的Real2Sim2Real仿真，结合3DGS的逼真渲染和IsaacSim的物理引擎两者的优点，可高效合成高质量仿真数据，用这些合成数据训练的VLA在真实环境中取得了一定从成功率。

2025-01-27 22:30:00 1783 1

原创 π₀：基于VLM的多任务具身操作基础模型

π₀是基于一种新颖的流匹配架构，该架构建立在预训练的视觉语言模型（VLM）之上。这种方法使模型能够继承互联网规模的语义知识，并有效地执行复杂和高度灵活的机器人控制任务。模型利用预训练的VLM主干，利用从大规模数据中获得的广泛知识、语义推理和问题解决能力。该架构采用流匹配（diffusion的一种变体），以表示复杂的连续动作分布。这使得模型能够生成高频率的动作块（高达50 Hz），适用于灵巧的操作任务。

2024-12-31 19:47:05 4992

原创 ROS1导航状态机与ROS2导航行为树

ROS1和ROS2导航框架中用到的各种底层算法基本相同，比如代价地图，全局路径规划和局部路径规划等，它们最大的不同在于整个系统框架设计。

2024-07-14 22:25:56 1109

原创机器人前沿--PalmE：An Embodied Multimodal Language Model 具身多模态大(语言)模型

利用多任务数据训练，最终可对单个任务起促进作用。（但这个实验博主觉得不太严密，缺乏一个full only robot data实验）我们提出通过将图像等多模态信息注入到具身语言模型中来构建具身多模态大语言模型。实验表明现成的最先进的视觉语言模型仅接受一般 VQA 和字幕任务的训练还不足以用于具身推理任务，也有近期的工作表明了其在可供性评估上的局限性，为了克服这些局限性，我们提出PaLM-E，一个单一模型，能够在模拟和现实世界中控制不同的机器人，同时具备一般视觉语言任务能力。

2024-07-14 21:25:56 1927

原创 TEB局部路径规划算法代码及原理解读

该图优化以g2o优化框架实现，以机器人在各个离散时刻的位姿和离散时刻之间的时间间隔为顶点，约束其中的加速度、速度，到达时间和到障碍物的距离等值，优化目标是使得机器人在其运动学约束下绕开障碍物最快到达目标点，实现了高效的局部路径规划功能。对于每一个动态障碍物，所有TEB位姿都会被考虑进去，与静态障碍物的处理不同之处在于，会根据障碍物的速度和时间对未来其位置进行预测，以达到动态避障的目的。图优化涉及到多种约束边时，各自的权重很重要，代码中对各个权重做了注释，也能很好地看出各个约束边的作用。

2024-07-13 23:09:09 3462 1

原创 ROS1 DWB 与 ROS2 DWA 比较

DWA/DWB采样时，采样速度会倾向于目标速度，这使得速度只会单调变化（如单调减少，或者单调增加），对于线速度而言没什么明显不合适，但对于旋转而言，则造成每条采样轨迹只能朝一个方向延伸，如下图所示（黑色表示不合理采样轨迹，绿色无箭头附着的表示合理轨迹，绿色有箭头附着的为想跟随的参考轨迹），不适用于Z字形连续弯道和需要频繁转向的动态避障，这也是一个值得优化的点。有点则在于算法简单高效，低动态场景下适用。评分函数：使用每一个预设加载的评分函数对轨迹进行评分，然后进行加权求和，评分越低，代表该轨迹越优。

2024-07-13 23:05:07 1474

原创软件建模概要

概念：给出了一组用例，参与者以及他们之间的关系。以使用者如何使用系统案例为核心，既识别清楚价值客户群体，又描述了系统的对外接口功能，是静态图，描述了系统在干什么。软件建模体现了软件设计的思想，在需求和实现之间架起了一座桥梁，通过模型指导软件系统的具体实现。模型不是软件的完备表示，而是所研究系统的一种抽象。概念：依据系统结构从静态观点描述系统的视图，它定义系统中的对象和类及类之间的关系，以及类的内部结构，及类的属性和操作。描述系统元素的状态条件和响应，反映了类对象可能具有的状态，以及引起状态变化的事件。

2024-07-13 22:56:58 338

原创 CMU-LOAM系列论文研读(二)TARE: A Hierarchical Framework for Efficiently Exploring Complex 3D Environments

主页我们提出一种在复杂的三维环境中自主探索的方法，该方法取得了比当前的技术水平更快的探索效果。本方法使用层次结构框架——一个层次维护稠密数据并计算出局部规划范围内的详细路径，而另一层级则维护稀疏的数据并计算全局尺度上的粗糙路径。这样的框架是基于如下的观察–在靠近机器人的地方，细节处理是最有效的，并通过权衡远距离范围的细节来提高计算速度。该方法优化了整体探索问题中的路径长度，并产生动力学上可行灵活的局部路径。在实验中，我们的系统在无人机和地面车平台上自主探索高难度的室内和室外环境复杂程度。

2024-07-13 22:49:18 713 1

原创 CMU-LOAM系列论文研读(一)DSVP: Dual-Stage Viewpoint Planner for Rapid Exploration by Dynamic Expansion

本论文提出了一种有效的探索高度复杂环境的方法。该方法包含两个规划阶段-在探索阶段延伸边界图，在迁移阶段将机器人转移到环境中的不同子区域。探索阶段在环境的自由空间中使用快速探索Random树(RRT)，在迁移阶段则在已建好的环境中维持一个全局图。两阶段都在重新规划阶段进行动态扩展。在各种具有挑战性的仿真和实际中，将该方法与现有的最先进的方法进行了比较，实验比较表明，我们的方法是可行，且使用更少的处理资源，探索空间的效率是现有方法的两倍。

2024-07-13 22:43:57 1087 1

原创基于3D感知的端到端具身操作论文导读

3D端到端操作论文导读

2024-07-13 15:43:01 1415

原创视觉SLAM与定位之一前端特征点及匹配

视觉特征点及匹配

2024-07-10 14:45:24 885

原创基于视觉的具身导航

基于视觉的具身导航是指输入机器人观测的当前图像ot和目标图像oG，输出当前时间步的控制动作ut，最终到达指定地点的算法流程。

2024-07-10 08:54:44 1886

原创 RT2-使用NLP的方式去训练机器人控制器

RT-2在训练方式上带来了很大的创新，但如何使得其可以真正落地应用，作者指出了一些路径，如果有团队肯下大力气攻坚，也还是有希望的。更重要的是在新物体，背景和环境上的泛化能力如何？Pali-X：使用ViT-22B处理图像，接收n张图像，获得n x k的tokens（k是图像的patch数量），图像tokens经过一个projections层，然后进入一个编码-解码的backbone(32B 参数和50层，类似于UL2，联合处理图像和文本embeddings，采用自回归方式输出tokens)，

2024-07-09 22:31:06 1090

原创 Mobile ALOHA前传之VINN, Diffusion Policy和ACT对比

对比mobile aloha三大模型优劣特点对比

2024-07-09 22:00:23 2774

原创 Mobile ALOHA: 你需不需要一个能做家务的具身智能机器人

机器人利用专家数据进行模仿学习可以学习到很多传统方法(依赖于抓取位姿估计和运动规划)所做不到的任务，比如使用工具、叠抹布、整理家务等，打开了通往通用机器人的希望之门。

2024-07-07 12:14:51 1305

原创伯克利、斯坦福和CMU面向具身智能端到端操作联合发布开源通用机器人Policy，可支持多种机器人执行多种任务

不同于LLM或者MLLM那样用于上百亿甚至上千亿参数量的大模型，具身执行大模型并不追求参数规模上的大，而是指其能吸收大量的数据，执行多种任务，并能具备一定的泛化能力，如笔者前博客里的RT1。目前该领域一个前沿工作是，该工作由美国Robot Learning顶尖高校（UC Berkeley，Stanford University，Carnegie Mellon University）联合推出，性能超过RT1，值得关注。

2024-07-05 17:16:51 1291

原创斯坦福提出首个开源视觉语言动作大模型OpenVLA

现有的VLA(Vision-Language-Action )模型具有这些局限性：1)大多封闭且开放；2)未能探索高效地为新任务微调VLA的方法，而这是VLAs被采用的关键组成部分。为此本工作开发了OpenVLA，一个基于97万条Open X-Embodiment机器人任务的7B参数开源VLA模型，它为通用机器人操作策略设定了新的技术前沿，它支持直接控制多台机器人，并且可以通过参数高效微调快速适应新的机器人配置。

2024-07-04 20:36:16 7031 4

原创具身智能controller---RT-1（Robotics Transformer）（上---方法介绍）

迁移学习在计算机视觉领域已有很多研究，但在端到端的机器人学习控制的领域研究还比较少，本论文提出通用的机器人模型一个关键点在于开放式的（open-ended）任务不可知的(task-agnostic)训练, 有着高容量(high-capacity)的网络结构，可以吸收所有不同种类的机器人数据。论文里的核心问题：可否利用大量的机器人任务数据训练一个大规模多任务骨干模型?这个模型是否会从别的领域观测获得好处, 表现出对新任务、环境和对象的zero-shot能力?

2023-07-26 17:20:30 3555

原创具身智能controller---RT-1（Robotics Transformer）（中---实验介绍）

为了进一步验证泛化能力，我们在厨房环境中进行实验，首先根据真实厨房环境与训练环境的差异，将其划分成L1-L3三个等级，L1表示对新的案台上面布局和不同光照条件的通用性，L2表示额外有未见过的诱导物体，L3表示额外有较大的新未见任务设置，未见物体或者未见位置，然后对比不同方法在这三种场景下的成功率。机器人训练数据的采集是在一个环境下的，示教共13个机器人采集，然后会放在另外两个不同的环境中进行验证。：在21个未见的指令任务上进行了测试，这里的未见是指组合任务未见，但拆分的动作和目标对象是见过的；

2023-07-26 17:08:12 2046

原创 ICRA2022 SLAM进展---激光SLAM

ICRA2022 slam论文简单导读，未完待续

2022-08-14 12:14:55 4908

原创激光SLAM论文简单导读--LOAM、VLOAM、LeGO-LOAM、LIO-SAM、LVI-SAM、LIMO、LIC-FUSION、TVL-SLAM、R2LIVE、R3LIVE

激光SLAM论文导读--LOAM、LeGO-LOAM、LIO-SAM、LIC-给FUSION开篇巨作LOAM （CMU张辑， RSS 2014）

2022-05-31 11:14:45 5014 4

原创 C++多线程

课程地址

2021-12-11 14:08:32 1102

原创深入理解计算机系统第五章------优化程序性能

课程网站编译器本身会对代码进行一定层次的优化，但某些情况下考虑到潜在的风险，编译器并不会执行优化，此时就需要程序员自己根据实际情况调整代码，提高代码的运行效率。优化层次有algorithm, data representations, procedures, and loops。代码优化需要掌握的知识点：How programs are compiled and executed 程序如何编译和运行？How modern processors + memory systems operate 现代

2021-10-09 19:10:25 915

原创 SOFT-SLAM系列论文解读

SOFT-SLAM2在KITTI数据集上霸榜了，作为视觉方案的定位方法，取得了超过激光-视觉融合的方法，凸显了该算法的优越性，所以赶紧紧跟潮流，研读相关论文。SOFT-SLAM: Computationally efficient stereo visual simultaneous localization and mapping for autonomous unmanned aerial vehicles...

2021-05-25 11:54:04 2734 1

原创状态估计第三讲：非线性高斯系统的状态估计问题

本章讲解非线性非高斯状态下的状态估计问题。重点讲解非线性非高斯的状态转移、离散时间的递归估计和离散时间的批量估计三部分。非线性系统的贝叶斯推断举例：从双目视差推断深度距离。Matlab蒙特卡洛仿真程序...

2021-05-19 09:20:58 2099

原创 OpenVSLAM代码解读--视觉跟踪Tracking_Module

Tracking_Module()是该SLAM的前端，主要任务是得到新获取图像的视觉特征与局部地图中的路标点之间的匹配关系，进一步通过优化法PnP计算得到当前时刻相机位姿，并利用一定的规则选择关键帧。流程如下：分层提取ORB特征点，计算描述子：此步骤将灰度图像(如果输入为彩色图像，将转换成灰度图像)信息转换成包含ORB特征点和描述子的图像帧(frame)数据，首先通过下采样得到图像的金字塔，其中原图为金字塔0层，然后在各层级金字塔上提取ORB特征点并计算对应描述子。(猜测:越低层级金字塔的特征点，距离相

2021-04-17 21:39:01 868

原创手眼标定Hand-eye-calibration环境配置踩坑及解决方案

ethz-asl/hand_eye_calibration github网站这两天一直在ubuntu16.04上配置手眼标定的环境，现将过程中的踩坑及解决办法记录如下：1，下载问题：必须翻墙才行，即使源码可以下载，但编译的时候，会要求自动下载opencv、glog_catkin等功能包，内网是没法下载的；2，完全按照官网的方式进行，编译过程中可能会遇到代码中的bug问题，比如catkin_build error: ‘loadFromYaml’ is not a member of ‘asl

2021-03-19 22:48:15 2003

原创 Python脚本：将文件形式的图像、IMU数据转换成rosbag包

convert image and imu dataset to a rosbag#!/usr/bin/env python"""Transform image and imu files to a ros bag fileusage convert_files_to_bag.py [directory]file folder: [color] [depth] IMU.txt TIMESTAMP.txtexample: FMDatasetAuthor: Ming Ouyang""

2021-02-28 23:21:37 3395 6

原创对极约束的几何认识

对极约束推导过程如上图，两个相机中心分别为 O1O_1O1、O2O_2O2，点P在两幅图像中的投影点分别为p1p_1p1、p2p_2p2，连线 O1O_1O1p1p_1p1 和连线O2O_2O2p2p_2p2在三维空间中会相交于点 P，点O1O_1O1、O2O_2O2 、P 三个点可以确定一个平面,称为极平面(Epipolar plane)。O1O_1O1O2O_2O2 连线与像平面 I1I_1I1、I2I_2I2 的交点分为 e1e_1e1、e2e_2e2, 称之为极点

2021-01-24 15:53:23 438

原创 VIO 初始化系列3------ORB-SLAM3 与VINS-Mono初始化比较

参考博客：VIO 初始化系列1------ORB_SLAM3 IMU 初始化代码解读VIO 初始化系列2------VINS-Mono初始化

2021-01-13 15:21:54 3172

原创 VIO 初始化系列2---VINS-Mono初始化

参考论文：VINS-Mono: A Robust and Versatile Monocular Visual-Inertial State EstimatorRobust initialization of monocular visual-inertial estimation on aerial robots参考博客：VINS-FUSION源码框架及C++知识点总结参考课程：从0开始手写VIO在参考博客里有介绍过初始化部分的大致流程，趁着现在要做VIO方面的项目，再来仔细梳理该初始化过程。深

2021-01-12 15:12:31 550

原创 VIO 初始化系列1------ORB_SLAM3 IMU 初始化代码解读

1，数据的获取

2021-01-10 22:40:08 4928 2

原创论文导读： Adaptive Robust Kernels for Non-Linear Least Squares Problems

参考论文： Adaptive Robust Kernels for Non-Linear Least Squares Problems本论文针对slam中的后端非线性优化设计了一个自适应的核函数。1，常用核函数核函数可用来处理outliar，在优化中给，残差较大的可视为有更大的概率是outliar，优化过程中会被赋予更小的权重。常用的核函数有pseudo-Huber/L1-L2, Cauchy, Geman-McClure, Welsh. 常用的核函数：这几个核函数可以写成一个通用的

2021-01-01 13:48:09 604

原创基于RGBD的平面提取方法总结

Real-Time Plane Segmentation using RGB-D Cameras:改论文是基于depth图像做的平面检测，根据depth得到的三维点，根据三维点所在邻域平面法向量以及平面距原点的距离，对其进行聚类，具体流程如下：利用depth点上下左右的点，计算出该点邻域平面的法向量；将所有的点根据上述求出来的三维法向量，分配到三维的voxel grid里去，这也就是第一步分类（Initial segmentation in normal space）；上述分好的类里再根

2020-12-12 15:33:33 3398 3

原创编程踩坑记录

编成过程中遇到的坑以及经验，特此记录

2020-11-07 15:57:40 210

原创 VINS marginalization源码分析

理论知识：SLAM中的marginalization 和 Schur complement深入理解SLAM中的MarginalizationVINS6边缘化DSO 中的Windowed Optimization边缘化留下的先验信息有哪些：//VINS边缘化有两个策略，如果在sliding window中第二近的frame是关键帧则丢弃sliding window中最老的帧、否则丢弃该帧。无论丢弃哪一帧，都需要边缘化。 if (marginalization_flag == MARGIN_

2020-08-06 20:58:09 814

原创三维点云处理技术四：三维点云数据处理基础

三维点云处理技术三：三维点云数据处理基础PCL介绍PCL点云数据结构PCL特性PCL模板库PCL处理一般流程点云滤波方法常见点云滤波方法体素滤波器：统计滤波器点云组织形式与最近邻搜索八叉树KD Tree点云分割、拟合、聚类方法分割拟合语义分割来源：睿慕课《三维点云处理技术和深度学习在三维点云处理中的应用》PCL介绍点云(Point Cloud)是离散点的集合，不仅包括三维点的位置信息，有时也包含点的材质反射信息和RGB信息，广泛应用于机器人抓取、识别、定位与运动规划中。PLC库是专门的处理点云运算的库

2020-05-19 17:37:51 5262 1

空空如也

空空如也