机器人姿态学习与控制的最优解！Robo-GS：实现机械臂与环境的联动建模

本文链接：https://blog.csdn.net/weixin_46788581/article/details/142392400

0. 这篇文章干了啥？

“真实到模拟再到真实（R2S2R）”范式对于推动机器人学习至关重要，但由于当前“真实到模拟”方法在空间与颜色表示以及渲染质量方面存在显著挑战，该范式尚未完全实现。这些挑战阻碍了从模拟到现实应用的有效策略迁移，从而损害了在模拟环境中训练的机器人系统的可靠性和性能。

本文旨在全面重建机械臂操作场景，这需要可操控的机器人模型、背景与物体的重建、物理参数（如质量和摩擦力）的融入以及逼真的渲染器。我们采用统一机器人描述格式（URDF）作为空间表示，并结合物理参数的支配方程作为前向变形机制。这种组合能够在模拟和高斯溅射（Gaussian Splatting）环境中实现准确的碰撞检测和一致的渲染。

本方法的核心是高斯-网格-像素绑定，它在网格顶点、高斯核和图像像素之间建立了同构关系。每个高斯核都被赋予一个语义标签和相应的ID，这使得能够精确应用由URDF支配的变换矩阵。这确保了现实世界视频、模拟结果和渲染图像之间轨迹的无缝迁移。此绑定的优势包括各表示之间端到端可微分的梯度传递、通过最先进的网格重建实现的卓越碰撞检测以及高质量的渲染。

我们的系统确保了模拟与现实之间的一致渲染，使得学习的策略能够有效地部署到现实场景中。此外，它还支持在Isaac Sim（Gym）模拟后端中进行编辑，从而能够对新姿态和新策略进行调整。我们的方法针对CR和UR产品系列的机械臂进行了优化，但足够灵活，可以推广到其他机械臂模型。与当前方法相比，我们的方法在基于视频的网格重建和动态渲染方面达到了最先进的性能。

下面一起来阅读一下这项工作~

1. 论文信息

标题：Robo-GS: A Physics Consistent Spatial-Temporal Model for Robotic Arm with Hybrid Representation

作者：Haozhe Lou, Yurong Liu, Yike Pan, Yiran Geng, Jianteng Chen, Wenlong Ma, Chenglong Li, Lin Wang, Hengzhen Feng, Lu Shi, Liyi Luo, Yongliang Shi

机构：University of Southern California、National University of Singapore、University of Michigan、Peking University、The Hong Kong University of Science and Technology、Beijing Institute of Technology、Tsinghua University、Xiaomi Robot Technology、AiR, Tsinghua University

原文链接：https://arxiv.org/abs/2408.14873

代码链接：https://robostudioapp.com/

2. 摘要

Real2Sim2Real在机械臂控制和强化学习中起着至关重要的作用，然而，由于机器人及其操纵的对象的复杂物理属性，弥合这一差距仍然是一个重大挑战。现有的方法缺乏全面的解决方案来精确地重建具有空间表示及其相关物理属性的真实世界对象。
我们提出了一个具有混合表示模型的Real2Sim管道，该模型集成了网格几何、3D高斯核和物理属性，以增强机械臂的数字资产表示。
这种混合表示是通过高斯网格像素绑定技术实现的，该技术在网格顶点和高斯模型之间建立同构映射。这实现了完全可微分的渲染管道，可以通过数值解算器进行优化，通过高斯分布实现高保真渲染，并使用基于网格的方法促进机器人手臂与其环境交互的物理模拟。
代码、完整演示和数据集将在我们的网站上公开

3. 效果展示

我们提出了一种新的数字资产格式，该格式通过结合网格、高斯溅射和现实世界运动来表示，如图1所示。这种方法通过从现实世界运动视频中提取关键物理参数（如质量和摩擦力）并将其集成，超越了传统的纹理网格和材料属性。

4. 基本原理是啥？

考虑高斯函数A(x, y, z) ∈ R3的中心点及其对应的图像像素位置P(u, v) ∈ R2。我们构建了一个同构映射，使得每个像素都能映射到与该像素具有相同语义掩码的高斯函数交点。每个高斯函数都与一组网格顶点和面绑定，形成我们称之为“高斯-网格-像素”绑定的结构，如图3所示。推荐课程：国内首个面向具身智能方向的理论与实战课程

优化3D高斯溅射涉及最小化高斯表示与像素数据之间的重投影误差。在4D高斯溅射中，输入图像包括像素数据和时间戳，旨在优化XYZT表示。由于4D重建中缺乏多视角一致性，这一非凸问题具有挑战性，如图4所示。

5. 实验结果

6. 总结 & 未来工作

我们的目标是开发一个鲁棒的Real2Sim框架，显著缩小现实世界机器人操作任务与其模拟对应任务之间的差距。我们通过引入一种混合表示模型来实现这一目标，该模型集成了网格几何、高斯颜色和物理属性。这种方法确保了机器人臂操作场景的高质量、逼真且符合物理规律的渲染。我们的模型在各种CR和UR产品序列上进行了训练和验证，证明了其从视频数据构建准确URDF的有效性。这种方法不仅提高了模拟环境的保真度，还很好地推广到其他机器人应用，从而推动了机器人学习和控制领域的最新进展。

我们当前的控制方法是基于位置的。然而，高斯溅射作为一种世界表示，能够从场景中的任何相机姿态进行准确渲染。因此，如果您想使用我们的资产和模型训练基于视觉的策略，只需在我们的引擎中设置渲染相机，并将输出用作训练数据即可。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

1V1论文辅导-3D视觉工坊提供顶会论文的课题如下：