51c自动驾驶~合集1_ray denoising: depth-aware hard negative sampling -CSDN博客

本文链接：https://blog.csdn.net/weixin_49587977/article/details/142586383

我自己的原文哦~ https://blog.51cto.com/whaosoft/12371155

#HTCL

超过所有视觉方案！HTCL：分层时间上下文问鼎OCC

本文是对ECCV2024接受的文章 HTCL: 的介绍，HTCL在SemanticKITTI基准测试中超过了所有基于相机的方法，甚至在和OpenOccupancy基准测试中超过了LiDAR，实现了最先进的性能。代码已开源，欢迎大家试用和Star~

代码链接：https://github.com/Arlo0o/HTCL
论文链接：https://arxiv.org/abs/2407.02077

Demo video 展示：

编辑

我们对比了同样采用时序双目图像输入的VoxFormer-T，并用更少的输入帧数（3 vs. 4）取得了更好的预测效果，在场景整体布局、相机视野外区域、远距离动态物体等的预测中表现出明显优势。

Motivation

基于相机的三维语义场景补全（SSC）对于从有限的二维图像观测中预测复杂的三维场景信息至关重要。现有的主流解决方案通过对历史帧信息的粗略堆叠来试图补充当前视角下的不完整观测，这种简单的时序建模方式不可避免地减少了有效的视觉线索，增加了模型学习难度。

编辑

为了解决上述问题，我们提出了HTCL，一种新颖的分层时序上下文学习范式，用于改进基于相机的语义场景补全。HTCL将时序上下文学习分解为两个层次步骤：(a)跨帧亲和度测量；(b)基于亲和度的动态细化。首先，为了从冗余信息中分离关键相关上下文，我们提出了尺度感知隔离策略，用于构建多个独立的学习模块，进而建模细粒度上下文对应关系。随后，为了动态补偿不完整的观测结果，我们基于识别出的具有高亲和度特征的空间位置及其邻近的相关区域，自适应地细化特征采样位置。

Method

我们提出的分层时序上下文学习（HTCL）范式可以有效改进时序特征聚合的可靠性，从而实现精确的三维语义场景补全。HTCL从不同时间帧的RGB图像中分层地推断三维语义Occupancy，以实现细粒度的场景理解。如下图所示，我们提出的分层时时序下文建模包括两个顺序步骤：(1)显式地测量当前帧和历史帧之间的上下文特征亲和力，提取最相关的高亲和度特征；(2)基于高亲和力特征的空间位置及其附近的相关上下文自适应地细化采样位置，以动态补偿不完整的观测。HTCL在创新性方面主要做出了以下贡献：

提出了一种时序上下文学习范式，以用于动态和可靠的三维语义场景补全。
提出了一种具有尺度感知隔离和多个独立学习模块的亲和度测量策略，用于细粒度的上下文对应关系建模。
提出了一个基于亲和度的动态细化方案，以重新分配时序上下文信息，并自适应地补偿不完整的观测结果。
HTCL在SemanticKITTI基准测试中超过了所有基于相机的方法，甚至在和OpenOccupancy基准测试中超过了LiDAR，实现了最先进的性能。

编辑

如上图所示，我们提出的方法整体框架主要由三个部分组成：Aligned Temporal Volume Construction，Voxel Feature Volume Construction，以及Reliable Temporal Aggregation。

编辑

效果如下图所示，跨帧模式亲和（CPA）有效地表示了时间内容中的上下文对应关系。

编辑

鉴于我们的目标是完成并理解与当前帧相对应的三维场景，因此必须为最相关的位置分配更大的权重，同时也需要调查其邻近的相关区域以弥补不完整的观察结果。为此，我们提出基于亲和力的动态细化（ADR），根据已确定的高亲和性位置及其邻近相关区域，用三维可变形卷积自适应地改进特征采样位置。具体来说，我们通过引入基于亲和力的对应权重和可变形位置偏移来实现动态细化:

编辑

Experiment

实验表明，我们的方法在SemanticKITTI Benchmark上排名第一，并在OpenOccupancy BenchMark中取得了超过基于LiDAR方法的mIoU。

定量实验结果：

编辑

在SemanticKITTI基准测试中，我们提出的方法明显优于所有其他方法。与VoxFomer-T相比，我们的方法即使在较少的历史输入（3 vs. 4）中也取得了显著的相对增益。在OpenOccupancy基准测试中，尽管基于LiDAR的在IoU方面具有固有的优势，但我们的HTCL在mIoU方面超过了所有其他方法（包括基于LiDAR的LMSCNet和JS3C-Net ），证明了我们的方法在语义场景补全方面的有效性。

定性试验结果：

编辑

图5展示了我们提出的方法与VoxFormer在SemanticKITTI上的定性比较。可以观察到，真实世界的场景非常复杂，而注释的地面实况相对稀少，这给从有限的视觉线索中完全重建语义场景带来了挑战。与 VoxFormer 相比，我们的方法能捕捉到更完整、更准确的场景布局（如第二行和第三行的十字路口）。此外，我们的方法还能有效地补全摄像机视野外更多合适的景物（如第一行和第二行中的阴影区域），并在移动物体（如第二行中的卡车）方面表现出明显的优势。图6展示了我们的方法在 OpenOccupancy 上的预测结果，我们提出的方法与GT相比，可以生成的结果更密集、更真实的Semantic Occupancy。

#MTR v3

https://storage.googleapis.com/waymo-uploads/files/research/2024 Technical Reports/2024 WOD Motion Prediction Challenge - 1st Place - MTR v3.pdf

基于MTR++改进，前作笔记：MTR和MTR++笔记

完整论文和源码还没有公布，目前只能先看report了。

Abstract

MTR v3是在MTR++上进行改进的。主要在两个方面进行了提升：

使用了原生的lidar数据来提供更细致的语义信息
使用了更好的更具有区分度的anchor来提升model的轨迹回归能力

除了上面两点外，采用了一个简单的ensemble技巧来进一步提升最后的表现。在soft mAP上达到了SOTA。

Introduction

MTR系列采用了场景encode，和使用了intention query的多模轨迹预测decode。本文爱之前的基础上额外使用了原始lidar数据，可以更好地捕捉一些HD map cover不到的场景信息，比如植被和建筑物。但其实这些对于行人的行为有很大的影响。而之前的MTR++存在回归loss很大的问题，这是因为anchor比较稀疏。为此，更新为更好的anchor生成方式。

Method

增加了lidar的3D信息，使用一个encoder来提取feature并喂到decoder的输入中
每个agent会根据mode动态获取有价值的point feature
最后用了一个ensemble的技巧

Model Design

Scene Encoder Network

Motion Decoder Network

和MTR++一样，统计现实中的gt轨迹的最后一个点的分布，用k-means聚类后得到K个intention的点，也就是anchor。然后就可以和场景feature融合，获得intention query。再用一个Mutually-Guided Intention Querying模块来处理每个agent的多个query之间的交互（让模态分散一些）。

接下来就是3次cross-attention：在agent间，在地图元素间，在lidar voxel间。

并且对于每个agent还需要学习dense的预测，会结合历史以及预测的模态来学习交互，中途出一个轨迹预测用于中间的辅助监督。在每一个cross-attention decoder之后都会加几个MLP来refine query。由于需要多模预测，建模是混合高斯的。

loss的话和MTR++类似，包含了概率的分类loss，GMM的回归loss（只采用了正样本的query对应的轨迹），以及一个辅助任务的loss（详细见MTR++, 大概是用dense的预测过历史轨迹的encoder，和历史轨迹的feature concat在一起作为一个更丰富信息的feature后直接短接一个预测head，会有gt来进行一个监督，使得model中间变量也有个监督）。对于回归loss，做了一个不一样的操作，详情可以参考EDA这篇文章，大概的意思是目前主流的做法有：

anchor based：输入anchor的end point，gt轨迹直接监督最接近gt的end point对应的轨迹。
prediction based：没有具体anchor，预测出来的轨迹里挑最接近gt的进行监督。

方法1虽然一般会对anchor进行小幅度的调整，但anchor本质还是不回移动太多的，不然gt的监督就可能监督到不是gt的模态上，效果上就没有利用好regression的任务，因为并没有让end point进行自由度很高的回归。方法2就很容易出现模态塌缩的问题，因为不像方法1一样强行设置多个mode。

于是EDA就是想要结合两种做法，先是用anchor输入，允许大幅度的refine，这一步可以用gt对一开始match的anchor进行监督，但refine后会重新match，再进行refine，多来几次可以让anchor收敛到比较理想又分散的效果。

Motion-Guided Lidar Search

Model Ensemble

Experiments

model参数见文章。每个lidar token的范围是长1.6m，宽1.6m，高6m。NMS的阈值用2.5m. 训练时也使用了随机剪裁以及缩放来数据增强。

#Denoising

原标题：Ray Denoising: Depth-aware Hard Negative Sampling for Multi-view 3D Object Detection

论文链接：https://arxiv.org/pdf/2402.03634

代码链接：https://github.com/LiewFeng/RayDN

作者单位：中国科学院大学 Mach Drive

论文思路：

多视角3D目标检测系统由于图像深度估计的挑战，常常难以生成精确的预测，导致冗余和错误检测的增加。本文提出了一种创新方法— Ray Denoising ，通过沿着相机射线进行战略性采样来构建困难负样本，从而提高检测精度。这些负样本在视觉上难以与真正的正样本区分，使模型被迫学习深度感知特征，从而增强其区分真阳性和假阳性的能力。Ray Denoising 设计为一个即插即用的模块，兼容于任何DETR风格的多视角3D检测器，并且只在训练时增加了极少的计算成本，而不影响推理速度。本文的综合实验，包括详细的消融研究，一致表明 Ray Denoising 在多个数据集上均优于强基线方法。在NuScenes数据集上，相较于最先进的StreamPETR方法，它在 mAP 上提升了1.9%。在Argoverse 2数据集上也显示出显著的性能提升，突显了其良好的泛化能力。

主要贡献：

本文识别了沿同一射线的误检这一持续存在的挑战，这成为多视角3D目标检测器性能的瓶颈。

本文引入了 Ray Denoising ，这是一种新颖的去噪方法，利用Beta分布在射线方向上创建深度感知的困难负样本。该方法明确考虑了场景的3D结构，提供了一种灵活的解决方案，兼容任何DETR风格的多视角3D检测器，以解决沿射线的重复预测问题。

本文的方法在NuScenes数据集 [2] 上达到了最先进的结果，显著提升了多视角3D目标检测器的性能。具体来说，本文在 mAP 上相较于当前最先进的方法StreamPETR提升了1.9%，从而证明了 Ray Denoising 的有效性。

论文设计：

3D目标检测是自动驾驶系统中的关键组件，因而引起了计算机视觉领域的广泛关注。相比于基于LiDAR的解决方案，基于图像的3D目标检测由于其成本效益正经历着研究热潮 [9, 10, 13, 14, 37, 38]。在依赖于周围相机图像的多视角3D目标检测中，一个主要挑战是从图像中估计深度的难度，这会导致重复预测，如图1所示。

尽管在方法上有所改进，多视角3D目标检测器在减少由深度模糊引起的误检方面仍面临困难。近期的几项研究 [8, 15, 17, 19, 22, 26, 34, 41, 46] 试图通过引入时间信息来解决这一问题。然而，这些方法并未明确考虑场景的3D结构，从而限制了其进一步提升的潜力。

此外，先前的研究还探索了应用诸如非极大值抑制（Non-Maximum Suppression, NMS）和 Focal Loss 等通用技术来缓解重复预测问题。NMS作为一种后处理技术，主要针对具有高交并比（IoU）的误检，但当这些预测沿射线分散且IoU较低时，其效果不佳。Focal Loss 作为一种旨在减少高置信度误检的损失函数也被应用。然而，观察发现，使用 Focal Loss 的多视角3D目标检测器在有效解决沿同一射线的误检问题时仍然面临挑战。

本文的定量分析强调了解决与真实值（Ground Truth）沿同一射线的误检的重要性。通过利用真实值目标的精确位置数据，本文能够在最先进的StreamPETR方法 [34] 中识别并消除这些冗余预测。这一过程显著提升了 mAP 5.4%，突显了模型提升深度估计能力的关键需求。这一显著的改进表明，通过优化深度估计来抑制这些误检，能够显著提升整体检测性能的潜力。

本文的关键观察是，由于传统多视角目标检测器的固有限制，误检常常沿着相机射线发生。由于每个像素的深度信息未能准确估计，位置嵌入只能编码射线方向。因此，同一射线上的查询将始终与图像中的相同视觉特征交互，导致沿该射线出现大量重复预测（误检）。这一情形突显了模型学习深度感知特征的需求，以便在视觉特征相同的情况下区分深度上的目标。本文提出了一种新方法，称为 Ray Denoising （简称RayDN）。该框架本质上具有灵活性，不限制用于采样深度感知困难负样本的分布选择。根据本文的消融研究，本文选择了Beta分布，因为它在捕捉模型可能生成的误检的空间分布方面表现出色。此选择使 Ray Denoising 能够创建用于去噪的深度感知困难负样本，从而增强模型学习更健壮特征和表征以区分沿射线的误检的能力，如图2所示。Ray Denoising 在训练阶段仅引入了极少的计算成本增加，而不会影响推理速度。

编辑

图1：在多视角3D目标检测中，从图像中估计深度的挑战导致沿相机射线的重复预测和误检。

编辑

图2：提出的 Ray Denoising 方法（右图）有效减少了在先前最先进方法StreamPETR [34]（左图）中沿射线的误检（红色矩形高亮部分）。

编辑

图3：Ray Denoising 方法的整体框架，这是一种即插即用的训练技术，适用于DETR风格的多视角3D目标检测器，重点在于提升模型区分深度中真阳性和假阳性的能力。通过投射射线和采样深度感知的去噪查询，有效解决了由于视觉深度估计固有困难而产生的误检问题，从而在检测性能上相较于强基线方法取得了显著提升。

讨论：

本文的 Ray Denoising （Ray Denoising）方法基于一个关键观察，即基于图像的3D检测系统往往难以区分沿相机射线的真阳性和假阳性。DETR风格的多视角3D目标检测器通过真实值监督隐式地学习深度估计。然而，可学习查询的随机分布参考点并未充分利用可用的真实值信息。尽管这些参考点在训练过程中会更新，但它们未能为每个场景中的每个目标提供足够的困难负样本。为了增强对真实值信息的利用，传统的去噪技术在训练期间引入了均匀分布在真实值目标周围的额外参考点。这些特定实例的参考点提高了检测性能 [19,22,34]。然而，它们忽视了多视角3D目标检测固有的深度模糊问题。由于每个像素缺乏精确的深度信息，位置嵌入只能编码射线方向，而不能编码深度。这导致同一射线上的查询与相同的图像特征交互，产生冗余预测。Ray Denoising 不同于传统技术，通过沿从相机到目标的射线战略性地生成参考点。这种方法明确考虑了场景中每个目标的3D结构，提供了足够数量的困难负样本。在训练过程中，这些 Ray Queries 在自注意力层中进行交互，有效引导模型抑制深度模糊的空间困难负样本。这种交互增强了检测器区分真阳性预测（目标）和假阳性预测（重复检测）的能力，从而提高了检测精度。

实验结果：

编辑

图4：(a) 分布比较显示，Beta分布在-1到1之间有界，而Laplace分布和高斯分布则是无界的。(b) Beta分布族，通过使用变换将 x 范围从调整到。

编辑

图5：(a) 不同距离阈值下的精确度-召回率（precision-recall）曲线可视化。Ray Denoising 在几乎所有召回率水平上均提升了精确度，有效抑制了误检。(b) 按类别的平均精度（AP）比较。Ray Denoising 在所有目标类别上均优于最先进的StreamPETR。

编辑

图6：本文在nuScenes验证集上的检测结果可视化。Ray Denoising 在有效减少重复误检的同时，保持了检测同一射线上的高度遮挡目标的能力。

编辑

总结：

本文引入了 Ray Denoising （Ray Denoising），这是一种旨在克服多视角3D目标检测中深度估计不准确这一关键挑战的方法。Ray Denoising 解决了沿相机射线发生的误检问题，这些误检是由于图像深度信息不精确直接导致的。通过利用场景的3D结构， Ray Denoising 促使模型学习深度感知特征，从而在不增加额外推理成本的情况下，提高了沿同一射线区分真阳性和假阳性的能力。本文在NuScenes和Argoverse 2数据集上的综合实验表明， Ray Denoising 始终显著优于强基线方法，在多视角3D目标检测中实现了新的最先进性能。

引用：

@article{liu2024ray,
  title={Ray Denoising: Depth-aware Hard Negative Sampling for Multi-view 3D Object Detection},
  author={Liu, Feng and Huang, Tengteng and Zhang, Qianjing and Yao, Haotian and Zhang, Chi and Wan, Fang and Ye, Qixiang and Zhou, Yanzhao},
  journal={arXiv preprint arXiv:2402.03634},
  year={2024}

#PerlDiff

使用扩散模型进行可控的自动驾驶场景数据生成

文章链接：https://arxiv.org/pdf/2407.06109

项目链接：https://perldiff.github.io/

主要贡献：

提出了新框架 PerlDiff，用于根据用户定义的3D注释生成街景图像。PerlDiff 利用透视布局掩码作为几何先验，精确引导物体层面的图像生成过程。
提出了基于 Perl 的交叉注意机制，该机制利用3D注释中的透视布局掩码图来增强 Perl-CM 中的交叉注意机制。这种方法通过整合道路和 BEV 注释的特定物体信息，实现了对街景图像生成过程的精确控制。
PerlDiff在NuScenes 和 KITTI 数据集上达到了SOTA，显著提高了将生成街景图像用于目标检测和分割上的实验结果。开发板商城天皓智联

可控生成被认为是解决 3D 数据标注挑战的一种的重要方法，而这种可控生成的精确性在自动驾驶的数据中变得尤为重要。现有方法侧重于利用 GLIGEN 或 ControlNet 等框架，将各种生成信息整合到控制输入中。虽然在可控生成方面取得了不错的成果，然而，这些方法本质上将生成性能限制在预定义网络架构的学习能力范围内。PerlDiff 充分利用透视 3D 几何信息进行有效街景图像生成，采用 3D 几何先验来指导街景图像的生成，并在网络学习过程中进行精确的物体层面控制，从而获得更准确、更可控的输出结果。

编辑

方法设计

训练数据：

NuScenes 数据集包括 1,000 个城市交通场景，分为 700 个训练场景和 150 个验证场景。每个场景有六幅高分辨率图像（900×1600），提供了一个完整的 360 度全景视图。NuScenes 还包括驾驶环境的综合路图，其中包括车道标记和障碍物等细节。
KITTI 数据集包含 3,712 幅训练图像和 3,769 幅验证图像。KITTI 数据集只有一张透视图像，没有路图信息。鉴于 KITTI 数据集的图像分辨率不同（约 375×1242），将其填充为 384×1280 以进行生成。

控制条件编码

根据交通场景的 BEV 注释，目标是生成多视角街景图像。不仅要提取场景信息，而且还要提取物体信息作为控制条件。

Perl场景信息：

透视场景图像：生成场景的背景信息，包含驾驶环境的路面以及障碍物等信息，使用不同颜色区分道路和其他背景元素；

场景文本描述：自定义生成场景的文本描述，可说明天气情况以及是在白天还是夜晚；

如何对其编码？

ConvNext:用于编码通过 BEV 注释投影得到的透视场景图像，来生成场景的背景特征编码；
CLIP文本编码：用于编码文本场景描述 , 生成场景特征编码；

Perl物体信息：

物体几何数据：将 BEV 注释投影到对应的透视视角，得到每一个物体边界框的的8个 2D 角点坐标；

物体类别文本信息：给出每一个物体属于类别的描述文本，如车，行人等；

如何对其编码？

Fourier 编码：用于编码物体几何数据，得到几何特征编码；
CLIP文本编码：用于编码物体类别文本信息,得到类别编码特征；
多层感知机（MLP）：将物体几何特征和类别特征融合，得到每一个物体的特征编码；

基于 Perl控制模块（Perl-CM）实现物体可控性

编辑

Perl-CM 负责将控制条件信息（包括 Perl 场景和物体信息）通过基于 Perl 的场景和物体交叉注意机制整合到潜在特征图中。首先该机制会为注意力图分配初始值, 然后在道路和边界框 Perl 掩码图的引导下，在整个网络训练过程中对这些值进行优化，以确保注意图的响应与物体所在区域准确对应；
为了确保多视图一致性，视图交叉注意力利用了紧邻的左视图和右视图的信息，以实现不同视角的一致性；
编辑
文本交叉注意力利用文本场景描述来处理街道场景的天气和照明条件；
编辑

Perl（路面/物体边界框）掩码图：

Perl 路面掩码图
Perl物体边界框掩码图通过将每一个物体的BEV标柱投影到透视视角后，将其3D边界框所在在内部区域像素置为1得到，代表物体标注框的数量；
编辑

Perl-based 交叉注意力：

传统的交叉注意力中控制条件与图像特征对应关系并不精确，导致生成图像并不能很好的满足给定的条件，而PerlDiff利用几何先验掩码图来增强输入控制条件与街景图像之间的交叉注意学习，将从场景上下文和边界框中获得的几何知识纳入交叉注意的计算中，确保路图和物体边界框数据在去噪过程的每个阶段都会与噪声街景图像精确对齐。

编辑

讨论：

与 BEVControl、MagicDrive、DrivingDiffusion 和 Panacea 等采用普通交叉注意机制来整合控制条件信息的方法不同。PerlDiff 通过 Perl 掩码图引入了几何先验，在训练阶段利用物体对应的控制信息来指导其生成，从而有效解决注意力图和条件信息之间常见的错位问题（导致图像可控性受损），显著提高了生成图像的准确性。

编辑

实验结果：

NuScenes数据集：PerlDiff 在多个指标上均优于 BEVControl 和 MagicDrive 等现有方法，特别是在 3D 目标检测指标图平均精度（mAP）和 NuScenes 检测指标（NDS）；

编辑

KITTI数据集：PerlDiff 在小样本数据集上仍然有很好的泛化性，相比于采用普通交叉注意力的BEVControl*，PerlDiff 在单目目标检测器MonoFlex上的指标是其十几倍。同时，实验说明利用在 NuScenes 上训练过后在 KITTI 上微调能达到更好的效果；

编辑

数据增强：PerlDiff利用合成数据集来提高各种检测模型在 NuScenes 测试集上的性能。其中，使用 NuScenes 训练集和验证集（第二行）的指标作为上限，来验证共同使用 NuScenes 真实训练集和 PerlDiff 生成验证集后，与其差距大小；

编辑

基于 Perl 的交叉注意力机制的效果：通过将其换成普通的交叉注意力机制，3D目标检测（BEVFormer）和BEV分割（CVT）指标大幅度变差，来说明其有效性；

编辑

Perl（路面/物体边界框）掩码图控制系数：不同掩码图权重系数代表几何先验知识融入网络学习的程度；

编辑

可视化结果比较：给出了相比于 BEVControl*，PerlDIff 在控制物体角度、位置、大小方面的有效性；

编辑

其他可视化结果：

编辑

主要结论：

PerlDiff 通过整合几何约束和扩散模型，在生成高保真度视觉图像的同时，提供了精确的控制信息，增强了图像生成的可控性。实验证明，PerlDiff在 NuScenes 和 KITTI 数据集上表现出色，有望在未来成为一个强大的交通模拟器。未来工作将探索视频生成，以进一步提升模型的应用潜力。

#AI 大模型“古月知道”引领 ROS 学习新体验

全新改版的古月居正式上线！

古月居自成立以来，一直致力于为广大 ROS（机器人操作系统）爱好者和开发者提供优质的学习资源和社区交流平台。经过长期的用户调研和反馈，古月居发现旧版网站在使用过程中存在一些不便之处。为了更好地服务大家，古月居团队经过不懈努力，对网站进行了全面优化和改版，整合了数据内容，提升了整体使用体验。

AI 大模型“古月知道”

当前古月居最大的亮点是推出的 AI 对话大模型——“古月知道”。这个智能助手结合了 Chat GPT 4.0 的强大语言理解和生成能力，以及古月居多年来积累的大量文章和问答数据，通过深度学习和知识库构建，为用户提供了一个高效、智能的问答平台。

“古月知道”不仅能够回答大家关于 ROS 学习的基础问题，还能根据用户的具体需求，提供个性化的学习建议和解决方案。无论是初学者还是资深开发者，都能在“古月知道”的帮助下，更快更好地掌握 ROS 技术。

“古月知道”的主要功能：

智能问答：基于古月居丰富的知识库，快速准确地回答用户的各种问题。

学习建议：根据用户的学习进度和需求，推荐合适的学习资源和课程。

实时互动：24/7 在线，随时为用户提供帮助，解决学习中的疑难问题。

知识梳理：通过梳理古月居的文章和问答数据，为用户提供系统化的学习路径。

通过“古月知道”，希望每一位用户都能在 ROS 学习的道路上更加顺畅，享受到智能科技带来的便捷和高效。

新旧网站细节对比

为了让大家更直观地了解新版古月居的改进之处，可参考以下对比图示，帮助大家快速上手新网站。

1.首页布局优化

编辑

新版首页采用了更加简洁明了的布局，突出了核心功能和推荐内容，使用户能够更快找到所需信息。

2.导航栏功能增强

编辑

新版导航栏增加了“AI 助手”入口，用户可以直接访问“古月知道”，获取智能问答服务。

3.每日一问，帮你解决更多问题

编辑

4.有问有答，提供更多支持

编辑

5.汇集最新的热门活动信息，帮你找到线下交流渠道

编辑

6.更多古月居官方产品，皆在古月严选

编辑

彩蛋：当我用上了“古月知道”

什么？你怎么知道这篇推文是“古月知道”帮我写的？

编辑

聚合古月居资源，帮你推荐古月居学习路径！

编辑

学习古月居产品?古月知道绝对是你的好帮手！

编辑

无聊想唠嗑？和古月知道一起唠嗑吧！

编辑

想学点别的，但是古月居没找到对应的文章怎么办？

编辑

还有更多惊喜，欢迎大家多多尝试呀！

#GaussianObject

上交&华为提出：仅需四张图片就能高质量重建~

3D高斯溅射（3D Gaussian Splatting，简称3DGS）是一种新兴的三维场景表示和渲染技术，它通过将3D空间中的点或体素视为高斯分布的中心，从而在空间中创建连续的表面或体积表示，广泛应用于点云渲染、体数据可视化、体积重建、增强现实（AR）和虚拟现实（VR）、电影和动画制作。可能说到这里你还无法感受到3DGS的神奇之处，那么看看小红书博主Chyi是如何用3DGS在游戏中重建桌面的吧！

，时长00:22

图注：视频来源：https://www.xiaohongshu.com/explore/66137816000000001b00cbd1?app_platform=ios&app_versinotallow=8.54.1&share_from_user_hidden=true&xsec_source=app_share&type=video&xsec_token=CBmY-_c550w0nnogaRfTSTqAEp898aw1_pNjLOF7JeLxw=&author_share=1&xhsshare=WeixinSession&shareRedId=ODdHMDVJNT82NzUyOTgwNjczOTc6RjlA&apptime=1727236710&share_id=981c6b33086d4a40b697ba4659d8fbc7&wechatWid=d23f41df238fec9f0e59f3a96872f4c1&wechatOrigin=menu

3DGS目前研究的一大难点是，从稀疏视图进行有效3D重建十分复杂和困难，尤其是在资源有限或条件受限的实际应用场景中。首先，数据捕获十分繁琐，通常需要捕获大量的多视图图像来进行有效的3D重建，这一过程对于非专业人士来说既麻烦又不切实际。其次，当只有极少数图像可用于重建时（例如360°范围内仅有4张图像），构建多视图一致性非常困难。3D表示可能会过拟合输入图像，导致结果退化成训练视图中的碎片化像素块，缺乏整体结构。此外，在360°范围内从稀疏视图捕获的对象，某些部分可能因为视角极端而被省略或在观察时被严重压缩。这些被省略或压缩的信息很难仅从输入图像中进行3D重建。即使近年来有多种方法提出以减少对密集捕获的依赖，但在视图极其稀疏的情况下，如何生成高质量的3D对象仍然是一个挑战。

，时长00:20

图注：GaussianObject fast forward. 来源：Chen Yang, Sikuang Li, Jiemin Fang, Ruofan Liang, Lingxi Xie, Xiaopeng Zhang, Wei Shen, Qi Tian, GaussianObject: High-Quality 3D Object Reconstruction from Four Views with Gaussian Splatting, https://gaussianobject.github.io/

为了解决上述挑战，上交、华为、多伦多大学联合提出GaussianObject，这是一个新颖的框架，旨在从少至4个输入图像中重建高质量的3D物体。文章选择3D高斯喷溅(3DGS)作为基本表示，因为它快速，更重要的是，足够明确。得益于其点状结构，文章设计了几种技术来引入物体结构先验，例如物体的基本/粗略几何形状，以帮助建立多视图一致性，包括视觉外壳在物体轮廓内定位高斯分布和去除离群值的浮子消除。为了消除由遗漏或高度压缩的对象信息引起的伪影，文章提出了一种由二维大扩散模型驱动的高斯修复模型，将损坏的渲染图像转换为高保真图像。由于正常的扩散模型缺乏修复损坏图像的能力，文章设计了自生成策略来构建图像对以调整扩散模型，包括从遗漏训练模型中渲染图像以及在高斯属性中添加3D噪声。修复模型生成的图像可用于细化经结构先验优化的三维高斯分布，从而进一步提高渲染质量。为了进一步将GaussianObject扩展到实际应用中，文章引入了一种无colmap的GaussianObject变体(CF-GaussianObject)，它在只有四张输入图像的挑战性数据集上实现了具有竞争力的重建性能，而无需输入准确的相机参数。

总之，这篇文章的贡献可以总结如下：

结构先验优化3D高斯（3D Gaussians）：文章提出了一种从高度稀疏视图中优化3D高斯的方法，该方法利用显式结构先验来增强多视图一致性。这包括使用视觉外壳（visual hull）技术进行初始化，以及在训练过程中采用浮动体消除（floater elimination）技术，从而为重建的3D对象提供一个粗略的几何框架。
基于扩散模型的高斯修复模型：为了解决由于信息缺失或高度压缩而导致的3D重建中的伪影问题，文章提出了一种基于扩散模型的高斯修复模型。这个模型能够将损坏的渲染图像转换成高保真的图像，从而进一步提高渲染质量。
框架性能超越当前最先进技术：整体框架GaussianObject在多个具有挑战性的真实世界数据集上，无论是定性还是定量地，都一致性地超越了当前的最先进技术（SOTA）。此外，文章还提出了一种无需COLMAP的变体（CF-GaussianObject），它在只需要四个输入图像的情况下就能实现竞争性的重建性能，并且不需要输入精确的相机参数，这降低了对相机姿态的严格要求，扩大了应用范围。

https://arxiv.org/abs/2402.10259https://gaussianobject.github.io/

基本技术回顾3D Gaussian Splatting

3D Gaussian Splatting是一种用于3D场景表示的技术，它通过一组3D高斯函数来描述场景中的点。每一个3D高斯函数包含中心位置、旋转四元数、缩放向量、不透明度和球谐系数。这样，一个场景可以被参数化为一组高斯函数。这种表示方法不仅计算效率高，而且由于其点状结构，可以方便地嵌入结构先验，适用于快速渲染。

ControlNet

ControlNet是一种基于扩散模型的生成模型，用于从数据分布中进行采样，生成图像。它通过逆转一个离散时间随机噪声添加过程，使用一个训练有素的扩散模型来近似这个过程。ControlNet通过在变分自编码器（VAE）的基础上，引入额外的图像条件，增强了生成过程。它使用一个损失函数来优化网络结构，这个损失函数考虑了文本和图像的条件，以及由扩散模型推断出的高斯噪声。

这两种技术在文章中被用于构建GaussianObject框架，用于从稀疏视图高质量地重建3D对象。3D Gaussian Splatting用于高效的3D表示和渲染，而ControlNet用于通过扩散模型修复和优化这些3D表示。

模型总体框架

GaussianObject旨在从极度稀疏的视角（例如360°范围内的4张图像）重建并渲染高质量的3D对象。模型的输入包括一组稀疏的参考图像（以及相应的相机内参、外参和对象的遮罩）。首先使用视觉外壳技术（visual hull）初始化3D高斯，为3D对象提供一个大致的几何框架。然后通过“浮点消除”（floater elimination）技术，优化3D高斯表示，以增强结构一致性并减少异常值。再设计一个基于扩散模型的高斯修复模型，用于修复由于信息缺失或压缩而造成的伪影，并设计自生成策略来获取训练修复模型所需的图像对。文章还提出了一种不需要COLMAP（一种结构从运动技术）的变体，它在没有精确相机位姿的情况下也能实现竞争性的重建质量。最后输出优化后的3D高斯表示，可以从任何视角渲染出照片级真实的3D对象。

1. 使用结构先验进行3D高斯的初始优化

文章提出了两种初始优化三维高斯表示的技术，它们充分利用了有限视图的结构先验，并得到了令人满意的物体轮廓。

根据视觉外壳初始化：在视觉外壳内使用拒绝采样方法随机初始化点：将均匀采样的随机3D点投影到图像平面上，只保留那些位于所有图像空间遮罩相交区域内的点。点的颜色是通过参考图像投影的双线性插值像素颜色平均得到的，并将这些3D点转换成3D高斯点。
浮动移除：由于参考图像覆盖范围不足，视觉外壳可能包含不属于物体的区域，这些区域表现为浮动，影响新视图合成的质量。因此，文章使用K-Nearest Neighbors (KNN)算法计算每个3D高斯到最近个高斯的平均距离。通过计算距离的平均值和标准差来建立一个规范范围，并根据这个范围排除那些平均邻接距离超出自适应阈值的高斯点。
初始优化：优化过程包括颜色损失、掩模损失和单目深度损失。其中颜色损失结合了L1损失和结构相似性（SSIM）损失。掩模损失使用二元交叉熵（BCE）损失。深度损失使用移位和尺度不变深度损失。综合这些损失项，通过调整各损失项的权重来优化3D高斯表示。

2. 引入高斯修复模型，旨在解决由于输入视图稀疏导致3D对象重建中出现的问题。

高斯修复模型R是为了解决由于输入视图稀疏导致3D对象重建中的信息遗漏和压缩问题，专注于纠正3D高斯表示中的异常分布。通过接受损坏的渲染图像作为输入，并输出经过修复的高保真图像，模型R有助于提高重建的质量和细节。这涉及到使用留一策略（leave-one-out training）和添加噪声来生成训练数据。具体来说，从输入图像中构建多个子集，每个子集包含除了一个之外的所有图像，然后使用这些子集训练多个3DGS模型。并且，在3D高斯属性上添加噪声，以生成更多损坏的渲染图像，从而提供足够的训练数据对。然后使用预训练的ControlNet作为基础，通过注入LoRA（Low-Rank Adaptation）层进行微调。这种方法使得GaussianObject能够在只有非常有限的视图信息的情况下，也能生成高质量的3D重建结果。

3. 基于距离感知采样策略的高斯修复方法

由于参考视图附近的对象信息丰富，模型需要确定哪些视图需要进行修正以提高整体的渲染质量，因此文章介绍了一种基于距离感知采样策略的高斯修复方法（Gaussian Repair with Distance-Aware Sampling）。文章建立了一条与训练视图对齐的椭圆路径，假设在这些路径上的渲染的图像质量较高，并集中在一个中心点上。其他弧线定义的视图的渲染结果需要被修正：在每次迭代中，从修复路径中随机采样新的视点。对于每个新视点，渲染相应的图像，并通过潜在扩散编码器将其编码，将编码的图像输入到图像条件分支的R中，同时生成一个噪声扰动的潜在表示。通过运行DDIM采样并通过扩散解码器生成一个样本，以修复视图。使用损失函数Lrep，该函数结合了距离权重和感知相似性度量，来优化3D高斯表示。通过识别和修正那些与参考视图距离较远的视图，模型能够更有效地利用数据和计算资源，从而提高整体的渲染质量。

4. COLMAP-Free GaussianObject (CF-GaussianObject)

传统的稀疏视图重建方法依赖于精确的相机参数，这些参数通常通过SfM流程（一种不需要结构从运动，Structure from Motion）获得。CF-GaussianObject旨在简化这一流程，减少对精确相机参数的依赖，使CF-GaussianObject可以更容易地应用于日常场景。具体来说，首先引入了先进的稀疏匹配模型DUst3R来预测相机姿态和内参，从而不需要传统的SfM流程。假设所有参考图像共享相同的相机内参，这与原始DUst3R不同，后者为每个视图预测不同的相机焦距。然后使用视觉外壳技术对DUst3R预测的粗略点云进行结构先验增强，以初始化3D高斯。最后引入正则化损失来限制预测相机姿态的偏差，增强优化的鲁棒性。

实验部分

表2和3给出了在MipNeRF360、OmniObject3D和OpenIllumination数据集上与现有方法相比，GaussianObject的视图合成性能。实验表明，gasianobject在所有数据集上都能获得一致的SOTA结果，特别是在感知质量- LPIPS方面。虽然GaussianObject的设计是为了处理极其稀疏的输入视图，但它仍然优于其他具有更多输入视图的方法，即6和9，进一步证明了其有效性。

图5和图6展示了在只有4个输入视图的情况下，各种方法在不同数据集上的渲染结果。文章观察到，与竞争模型相比，GaussianObject获得了更好的视觉质量和保真度。虽然ZeroRF在OpenIllumination上表现出具有竞争力的PSNR和SSIM，但其效果图模糊且缺乏细节，如图6所示。相比之下，GaussianObject展示了精细的重建。这种优越的感知质量突出了高斯修复模型的有效性。

表4显示了对具有挑战性的MipNeRF360数据集的比较。考虑到TriplaneGaussian只适应单一的图像输入，文章给它提供物体的正面视图。LGM需要将目标物体放置在世界坐标原点处，摄像机朝向目标物体，仰角为0◦，方位角为0◦，90◦，180◦和270◦。因此，文章报告了两个版本的LGM——LGM-4直接使用四个稀疏捕获作为输入视图，LGM-1使用MVDream按照原始方式生成符合LGM设置要求的图像。结果表明，输入视图之间的严格要求严重阻碍了具有野外捕获的类lrm模型的稀疏重建性能。相比之下，GaussianObject不需要大量的预训练，对输入视图没有限制，可以重建日常生活中任何复杂的对象。

CF-GaussianObject的性能在MipNeRF360和OmniObject3D数据集上进行了评估，结果详见表2和图5。虽然CF-GaussianObject表现出一些性能下降，但它消除了对精确相机参数的需求，大大提高了其实用性。与其他依赖精确相机参数的SOTA方法相比，其性能仍然具有竞争力。值得注意的是，文章观察到性能下降与输入视图数量的增加相关，这主要是由于随着视图数量的增加，DUSt3R估计的准确性下降。如图7所示，对智能手机拍摄的图像进行对比实验，证实了CF-GaussianObject具有优越的重建能力和视觉质量。

消融研究

文章进行了一系列的实验来验证每个组件的有效性。下面在MipNeRF360上进行了4个输入视图的实验，并报告了平均度量值。文章一次禁用目视船体初始化、浮子消除、高斯修复模型设置和高斯修复过程，以验证它们的有效性。进一步将高斯修复损失与分数蒸馏采样(SDS)损失进行比较，并消融深度损失。表5和图9所示的结果表明，每个元素都对性能有重要贡献，缺少它们会导致结果下降。

特别是，忽略视觉船体初始化会导致性能显著下降。高斯修复模型设置和高斯修复过程显著提高了视觉质量，缺少任何一种都会导致感知质量大幅下降，如图8所示。

为了验证文章设计的修复模型的有效性，文章评估了高斯修复模型和其他替代结构生成的样本。第一个是用Dreambooth实现的，它嵌入了带有语义修改的目标对象先验。受Song等人的启发，第二种方法引入了单目深度调节ControlNet，该方法使用3.4节中的数据对生成进行微调。文章还使用掩蔽深度调节来评估性能。此外，文章考虑Zero123-XL，这是一种著名的单图像重建模型，需要以物体为中心的输入图像，并具有精确的相机旋转和位置。结果如表6和图10所示，仅Dreambooth提出的语义修改在3d相干合成中是失败的。单目深度调节，无论是带或不带口罩，尽管有一些改进，仍然存在深度粗糙度和伪影。Zero123-XL，在生成视觉上可接受的图像的同时，缺乏多视图结构一致性。相比之下，文章的模型在3D一致性和细节保真度方面都表现出色，在定性和定量方面都优于其他模型。

文章设计了实验来评估相对于不同训练视图数量的优势。如图11所示，在不同数量的训练视图中，GaussianObject始终优于vanilla 3DGS。此外，具有24个训练视图的GaussianObject在所有（243）视图上训练的性能与3DGS相当。

GaussianObject在稀疏360°对象重建中表现出显著的性能，但作者仍提出几点研究展望：

（1）在完全未观察到或观察不足的区域，文章的修复模型可能会产生幻觉，即可能产生不存在的细节，如图12所示。

（2）由于输入数据的稀疏性，当前模型在捕捉视图依赖效果方面存在限制。这可能导致在新视角下无法正确显示视图依赖的外观，或者在渲染中引入一些意想不到的伪影，如图13所示。

对此，作者希望未来探索新的方法来更好地捕捉和渲染视图依赖效果，以便在新视角下正确显示这些效果。此外，考虑将GaussianObject与表面重建方法（如2DGS和GOF）结合，以提高重建质量和细节。虽然CF-GaussianObject在没有精确相机参数的情况下取得了竞争性能，但仍有改进空间。未来可以探索使用匹配方法产生的置信度图来改进相机位姿的估计，可能会提高COLMAP-free方法的准确性和鲁棒性。

#双臂机器人协同操作

斯坦福大学最新！双臂机器人协同操作：更丝滑更可预测！

在机器人领域，双手协同操作具有重要意义，但也面临诸多困难。双手操作需要高维连续控制以确保任务成功和操作精度，同时双手还需协作完成任务，避免相互干扰。机器人需要同时学习协调双手的运动，随着任务维度增加、非平稳动力学以及不对称协作等因素的影响，双手协同操作的难度进一步增大。此外，获取大量且有效的双手协同操作训练数据十分困难。现有的数据集往往侧重于单臂操作或简单的双手操作场景，无法满足复杂的双手协同操作研究需求，这导致模型在学习过程中缺乏足够的样本，难以学习到有效的双手协同策略。

同时，手指灵巧操作同样是机器人面临的挑战。手指的操作涉及到多个自由度的控制，每个手指关节都需要精确控制，以实现如抓取、旋转、放置等精细动作。传统的控制方法往往依赖于特定的假设，在面对复杂和不确定的环境时，难以实现有效的手指灵巧操作。

本期具身智能之心带来了几篇研究双臂协同操作的文章。学者们致力于改进模型架构和硬件系统使其更适应精细操作，引入剪切形变缩小模拟到现实的差距，引入重力补偿机制实现更平滑、可预测的运动，用统一的物理可解释空间将不同机器人的动作空间统一，设计异构的手指、关节智能体，模拟人类手指精细操作……

更多具身智能内容，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球，这里包含所有你想要的。

Aloha：使用低成本硬件学习细粒度的双手操作

https://github.com/tonyzhaozh/alohahttps://arxiv.org/pdf/2304.13705

精细操作任务对机器人来说很难，通常需要高端机器人、精确传感器或仔细校准，成本高且设置困难。本文旨在探索学习能否使低成本、不精确的硬件执行这些任务。本文介绍了一种低成本学习精细双手操作的系统，包括遥操作系统和新型模仿学习算法ACT。

ALOHA遥操作系统具有低成本的优点，整个系统在大多数机器人实验室的预算范围内，约20k美元，与单个工业机械臂价格相当，由两个ViperX 6 - DoF机械臂和一些3D打印部件等组成。它可应用于多种精细操作任务，如穿拉链、插内存、玩乒乓球等。此外，ALOHA对用户友好，由于采用直接关节空间映射，操作体验好，如设计了3D打印的“手柄和剪刀”机制和橡胶带负载平衡机制等。并且，ALOHA易搭建、易维修，仅使用现成的机器人和少量3D打印部件，研究人员可在不到2小时内组装完成。
ACT模仿学习算法能够有效处理复合误差，通过动作分块和时间集成减少任务的有效范围，缓解模仿学习中的复合误差问题，提高了在精细操作任务中的性能。将策略训练为条件变分自编码器（CVAE），能够更好地对有噪声的人类演示数据进行建模，准确预测动作序列。实验证明在多个模拟和真实世界的精细操作任务中显著优于之前的模仿学习算法。

但ALOHA系统也有局限性，比如ALOHA难以完成需要双手多指、大力气或指甲操作的任务，如打开儿童防护药瓶、举起重物、打开贴紧的胶带边缘等。此外，ACT在解开糖果包装和打开平放在桌上的小拉链袋两个任务上学习困难，可能由于感知困难和数据不足。

ALOHA 2：一种用于双手遥操作的增强型低成本硬件

https://arxiv.org/abs/2405.02292

本文介绍了ALOHA 2，一种增强版的低成本双手遥操作硬件，相比原始设计具有更高的性能、更好的人体工程学和更强的鲁棒性。具体硬件组成为由两个ViperX 6 - DoF机械臂（“从动臂”）和两个较小的WidowX臂（“主动臂”）组成的双手平行夹爪工作单元，搭配多个摄像头，安装在桌子上，有铝制笼子和重力补偿系统。相对于先前版本，作者为主动臂和从动臂设计新的低摩擦轨道，升级手指上的胶带材料，提高耐用性和抓取能力。并且，使用现成组件创建被动重力补偿机制，提高耐用性。此外，作者简化了工作单元周围的框架，保持相机安装点的刚性，为人类 - 机器人协作和道具留出空间。摄像头使用更小的Intel RealSense D405摄像头和定制3D打印相机支架，减少从动臂的占用空间，增加视野、提供深度、具有全局快门并允许更多定制。

实验表明，以上改进十分有效。在夹爪比较实验中，6名用户使用原始ALOHA剪刀式设计、线性轨道设计和触发式设计操作ALOHA 2解开糖果，线性轨道设计受到大多数用户好评。在重力补偿实验中，6名用户分别使用被动硬件重力补偿系统和基于软件的主动系统进行10分钟的插入形状任务，结果表明被动系统平均性能更好，且具有更平滑、可预测的运动，以及更安全和防止手臂过度旋转的优点。此外，重新设计的框架简化了设计，增加了空间，便于收集人类 - 机器人交互数据和放置更大的道具。并且，升级后的摄像头减少了碰撞状态，提高了某些精细操作任务的遥操作性能。

DiT - Block Policy: 机器人Diffusion Transformer的组成要素

https://arxiv.org/abs/2410.10088

本文提出了 DiT - Block Policy，在机器人扩散 Transformer 策略学习方面有诸多创新。首先，受Peebles等人启发，提出添加自适应层归一化（adaLN）块来稳定训练扩散 Transformer 策略层，在包含超过 1000 个决策的长时域、灵巧的现实世界操作任务中，性能提高了 30% 以上。其次，作者比较了多种对多个相机观察进行标记化的方法，发现相对简单的 ResNet 图像标记器 + Transformer 策略组合，相比竞争策略可提供 40% 以上的性能提升。此外，采用多种方式组合来自多个传感器的信息，如使用ResNet - 26编码器分别处理相机图像，通过FiLM层将文本目标融入视觉编码器，对本体感受输入进行正则化处理等，这些方法对长周期、双手动任务性能提升约40%。

相对于前人的研究，本文在双手 ALOHA 机器人上执行一系列任务，如 Pick Place（拾取放置）、Pen Uncap（拔笔帽）、Sushi Cut（切寿司）等，与 SOTA 基线相比，平均性能提升约 20%。并且，能够更稳定地学习扩散策略 Transformer，在所有三个任务上都能提供可靠的性能，而其他基线方法在某些任务上表现不佳，例如 ACT 在 Pen Uncap 任务中表现挣扎，D.P. U - Net 在 Sushi Cut 任务中表现不佳。此外，还在单臂 Franka 机器人上进行测试，执行 Toasting（烤面包）和 Wiping（擦拭）等任务，结果表明 DiT - Block Policy 再次提供了 SOTA 性能，平均比 ACT 高出 20%，比 D.P. U - Net 高出 35%，显示出对新机器人形态和控制空间的良好泛化能力。

DiT - Block Policy 架构将性能最佳的组件集成到统一框架中，在双手 ALOHA 机器人和单臂 DROID Franka 设置上均实现了最先进的性能。

Mobile ALOHA: 通过低成本全身遥操作学习双手移动操作

https://arxiv.org/abs/2401.02117

文章提出Mobile ALOHA，一种低成本全身遥操作系统，由敏捷X追踪AGV作为移动底座和ALOHA机械臂组成，总预算32k美元，相比同类产品更经济实惠，且具备移动、稳定、全身遥操作和无缆等特性。采用协同训练方法，利用静态ALOHA数据集和Mobile ALOHA数据集共同训练，提高了模仿学习在移动操作任务上的性能和数据效率，在多种任务上取得良好效果。

Mobile ALOHA具有多模态处理能力。为了将多传感器信息融合，系统配备多个摄像头和传感器，能同时处理视觉和本体感受信息，用于策略学习和任务执行。此外，它能处理复杂任务场景，能执行包括家务、烹饪、人机交互等多种复杂任务，涉及双手协调、移动操作和精确控制等多种要求。Mobile ALOHA与多种算法兼容，包括ACT、Diffusion Policy、VINN等多种模仿学习方法兼容，并通过协同训练提高性能。在不同任务和场景下具有泛化能力，通过对7种任务的实验验证了其在不同操作要求下的有效性。

RDT - 1B：一种用于双手操作的扩散基础模型

https://arxiv.org/abs/2410.07864

双手操作对机器人完成现实任务至关重要，但开发基础模型极具挑战，包括双臂动作的多模态分布和训练数据稀缺。当前方法要么依赖特定任务原语，要么局限于小规模模型、数据和简单任务，泛化能力有限。这篇文章介绍了用于双手操作的机器人扩散基础模型RDT。该模型解决了协调双臂机器人的数据稀缺和操作复杂性问题，展现出对未见过的物体和场景的零次学习泛化能力，以及在少量样本学习和指令遵循方面的优势。

文章提出的RDT模型采用扩散模型对连续条件分布进行建模，以处理多模态问题，并针对机器人数据特性进行了改进。模型将低维输入、图像输入和语言输入编码到统一的潜在空间，同时对不同输入进行随机掩码以防止模型过度依赖特定输入。并且基于Transformer的 f_theta 网络进行了QKNorm和RMSNorm、MLP解码器、交替条件注入等关键修改。
作者还提出物理可解释的统一动作空间，将不同机器人的动作空间统一。该空间的每个维度都有明确的物理意义，通过将机器人的原始动作空间映射到统一空间，促进模型学习通用物理知识，同时保留原始动作的物理意义。

Bi-Touch：基于从仿真到现实的深度强化学习的双手触觉操作

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10184426

双手操作在处理大物体或耦合物体时有更好的机动性和灵活性，但设计有效的控制器面临系统集成复杂和硬件成本高的挑战，且触觉传感研究相对较少。现有工作存在未考虑触觉传感、依赖特定运动技能或视觉跟踪系统、缺乏泛化能力等问题。本文介绍了基于模拟到现实深度强化学习的双手触觉操作Bi - Touch系统，该系统在触觉反馈的双手操作任务上展现出有效性和泛化能力。

Bi - Touch系统采用两个Dobot MG400桌面机器人手臂构建低成本双臂触觉机器人系统，通过引入桌子支撑物体，合理配置工作空间。并且，它配备了两个TacTip仿生光学触觉传感器，能感知局部接触特征。模型采用模拟到现实的深度强化学习框架，学习过程包括在模拟环境中训练策略、学习真实到模拟触觉图像的转换模型以及将策略应用到物理系统三个部分。文章针对三个双手触觉操作任务（双推、双重新定向、双收集）进行研究，为每个任务定义动作空间和奖励函数。双推任务目标是移动大物体，双重新定向任务是改变物体角度，双收集任务是将两个物体聚集在一起。

但系统仍具有一定的局限性，如未考虑触觉传感器的剪切变形，未来可进一步改进模拟方法以缩小模拟到现实的差距，并应用于更精细的操作任务

Bi-DexHands：迈向人类水平的双手灵巧操作

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10343126

在机器人领域，实现人类水平的灵巧操作仍然是一个关键的未解决问题，特别是双手灵巧操作由于其高自由度和双手协作需求，面临诸多困难。强化学习算法在一些机器人任务中取得了成功，但在处理高维观测和双手协调问题上仍面临挑战，且缺乏专门用于双手灵巧操作任务的高质量模拟器。现有的机器人操作基准测试存在局限性，多数侧重于单臂操作任务，且针对灵巧多指手操作的任务和环境设置不够全面和复杂。

这篇文章提出的Bi - DexHands同时提供单智能体强化学习（Single - Agent RL）、多智能体强化学习（Multi - agent RL，MARL）、离线强化学习（Offline RL）、多任务强化学习（Multi - task RL）和元强化学习（Meta - RL）环境，涵盖多种常见的强化学习算法环境，相比以往的强化学习基准测试更加全面。
此外，Bi - DexHands中的智能体（如关节、手指、手等）是真正异构的，不同于常见的多智能体环境（如SMAC）中智能体可以简单共享参数来解决任务。异构智能体的设计更符合实际机器人操作中不同部件具有不同特性和功能的情况，有助于研究更复杂的双手协作任务。
最后，机器人的Shadow Hand具有24个自由度（DoF），由20对拮抗肌腱驱动，能够模仿人类手部的骨骼结构进行多种灵活和精细的操作。并且在一些任务中，手部的底座不是固定的，策略可以在受限空间内控制底座的位置和方向，利用了手腕的功能，使Shadow Hand更具仿生特性。

参考文献

Learning Fine - Grained Bimanual Manipulation with Low - Cost Hardware , https://arxiv.org/pdf/2304.13705
ALOHA 2: An Enhanced Low-Cost Hardware for Bimanual Teleoperation , https://arxiv.org/abs/2405.02292
The Ingredients for Robotic Diffusion Transformers , https://arxiv.org/abs/2410.10088
Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low - Cost Whole - Body Teleoperation , https://arxiv.org/abs/2401.02117
RDT - 1B: A DIFFUSION FOUNDATION MODEL FOR BIMANUAL MANIPULATION , https://arxiv.org/abs/2410.07864
Bi - Touch: Bimanual Tactile Manipulation With Sim - to - Real Deep Reinforcement Learning , https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10184426
Bi-DexHands: Towards Human-Level Bimanual Dexterous Manipulation , https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10343126

#WeatherDG

无限天气数据生成！VLM+扩散模型直接爆拉14个点

在这项工作中，我们提出了一种新颖的方法，名为WeatherDG，它可以通过两个基础模型的合作，即Stable Diffusion（SD）和大型语言模型（LLM），生成大量逼真、多样化的天气驾驶场景图像。具体来说，我们首先使用源数据对SD进行微调，使生成的样本内容和布局与真实驾驶场景保持一致。然后，我们基于LLM提出了一种渐进化的提示生成方法，该方法可以丰富场景描述，帮助SD自动生成更多样化、详细的图像。此外，我们引入了一种平衡生成策略，鼓励SD在各种天气条件下生成高质量的“尾类”对象，例如骑车人和摩托车。这种与分割模型无关的方法通过使用生成的合成数据来进一步适应现有模型，从而提高它们的泛化能力。实验结果表明，我们的方法可以显著提高不同最先进模型在目标领域上的分割性能。特别是在“Cityscapes到ACDC”的实验设置中，我们的方法使基线模型HRDA的mIoU提高了13.9%。代码已经开源:https://github.com/Jumponthemoon/WeatherDG。

1. 引言

语义分割是自动驾驶的基本任务。尽管在这一领域取得了显著的成就，现有模型在部署到未知领域时仍面临严重挑战，这源于众所周知的领域偏移问题。此外，当未见领域具有恶劣天气条件时，这一问题会更加严重，如雾天、雨天、雪天和夜晚场景。
一种解决上述问题的简单方法是收集更多样化的训练数据。然而，标注分割任务需要大量时间，因为我们需要为图像中的每个像素进行标注。因此，领域泛化在解决领域偏移问题中变得流行，其目标是在仅使用给定源数据的情况下训练一个能够泛化到未见领域的模型。现有的领域泛化方法一般可以分为两类：归一化方法和数据增强方法。本文我们主要关注后者，因为它更灵活且易于与前者技术集成。以往方法通常使用模拟器或图像转换模型生成新样本，虽然有效，但在生成恶劣天气条件下的样本时，仍存在多样性和真实性问题（如图2所示）。近年来，Stable Diffusion（SD）展示了生成逼真、多样化高质量图像的强大能力，激发了我们利用SD来解决以往数据增强方法在领域泛化中的不足。然而，直接将SD应用于我们的任务会产生一个关键问题：生成的样式和布局与驾驶场景样本差异较大（见图2b）。由于SD的训练数据包含各种类型的图像，而不是专门针对驾驶场景，导致无法生成具有驾驶屏幕特征的样本，缺乏细致和明确的指导。

2. 相关工作领域泛化语义分割（DGSS）

DGSS旨在训练深度神经网络，使其在多个未见领域的语义分割任务中表现良好。现有的DGSS方法通过归一化或数据增强来解决领域差异问题。归一化方法通过对源特征的均值和标准差进行归一化训练，或通过白化这些特征的协方差来解决问题。基于数据增强的方法则将源图像转化为随机风格化的版本，以引导模型捕捉领域不变的形状特征，因为纹理提示被随机风格替代。

无监督领域自适应（UDA）

UDA旨在提升模型在领域特定数据上的表现，而无需标注的示例。现有的UDA技术可以分为三类：差异最小化、对抗性训练和自训练。最近，DATUM [27] 提出了一种单次域自适应方法，该方法使用目标域中的单个图像生成数据集，并结合无监督域自适应训练方法来弥合模拟到现实的差距。此外，PODA [28] 利用了CLIP模型的能力，通过提示实现了零样本域自适应。

基于文本的图像生成

当前的文本生成图像任务主要由基于扩散模型和大语言模型（LLM）的方法驱动。扩散模型在生成逼真图像方面取得了突破，促使研究人员探索其在丰富源域数据集和改进语义分割中的应用。例如，DIDEX [8] 利用 ControlNet [30] 将合成图像转换为现实世界风格。然而，这种方法通常缺乏真实感，并重复训练数据的空间布局，限制了多样性。

另一方面，大型语言模型也发挥着关键作用。CuPL [31] 利用 GPT-3 [32] 生成文本描述，增强零样本图像分类。CLOUDS [9] 使用 Llama [33] 创建用于扩散模型的提示。然而，它们未能充分考虑因天气和光照条件变化带来的复杂性。相比之下，我们的方法采用了一系列作为代理的LLM，不仅能够为复杂的现实场景生成详细描述，还实施了定制的生成策略。这样保证了生成的图像既多样又真实，且能够解决在复杂条件下的类别不平衡问题。

3. 提出的方法

WeatherDG旨在生成适用于特定天气的自动驾驶场景图像，以增强恶劣条件下的语义分割性能。我们首先通过微调扩散模型来适应源领域的场景先验，确保生成的图像符合驾驶场景。接着，我们采用程序化的提示生成方法，创建详细的提示，使扩散模型能够生成逼真且多样化的天气和光照效果。最后，我们利用UDA训练方法来使用生成的图像进行语义分割模型的训练。

3.1 SD微调

首先，使用源数据对Stable Diffusion模型进行微调，以确保生成的图像能够更好地与真实的驾驶场景对齐。我们在提示中使用一个唯一标识符，将先验知识与从源域数据集中选择的一张图像关联起来。例如，提示语句"A photo of V* driving scene"会与从选定图像中裁剪出的图像块相关联，其中V* 标识该场景，而“驾驶场景”对其进行宽泛描述。这种方法可以防止语言漂移，并提高模型性能。训练过程如图4a所示。训练结束后，模型通过唯一标识符V*捕捉场景先验，并能够在类似的上下文中生成新的实例，如图4b所示，应用于自动驾驶数据集。

3.2 程序化提示生成

其次，利用LLMs之间的协作生成详细和多样的场景提示；最后，利用这些丰富的提示创造多样的训练样本。为了使扩散模型生成天气和光照效果，必须将具体的天气条件和一天中的时间整合到提示中。然而，简单的模板如“A photo of [CLS], [WEATHER], [TIME]”往往无法提供足够的多样性和细节，因此需要更细致的描述。手动编写这些描述非常耗时，因此我们考虑采用大型语言模型（LLM）来自动化这一过程。此外，鉴于恶劣天气条件下动态对象样本的稀缺性，我们需要在提示生成过程中采用平衡生成策略，以丰富这些对象的样本。为此，我们对生成提示的要求有三点：1) 应该采用平衡的生成策略，2) 引入不同的天气和光照条件，3) 提供详细的描述。最重要的是，所有的提示都由LLM模型自动生成，以减少人工干预。

在实现过程中，我们发现直接为单个LLM模型提供一条指令并不能满足我们所有的需求。具体来说，生成的提示往往与我们设计的生成策略不符，或者未达到我们期望的详细描述水平。为了解决这个问题，我们开发了一种程序化的提示生成方法，涉及三个LLM代理，分别是实例采样器、场景创作者和场景描述器。这种分层的方法使我们能够精确地生成用于图像生成的文本提示，确保每个提示的各个方面都与我们预期的结果一致。

4 实验

我们可视化图片生成结果，模型可以生成丰富的天气场景的自动驾驶场景。图6中的结果表明，普通的Stable Diffusion倾向于生成具有艺术风格或电影摄影效果的图像，如在“卡车”、“自行车”、“摩托车”和“公交车”等类别中所见。对于“汽车”和“火车”类别，图像展示了不同的摄影视角，例如鸟瞰视角。此外，对于“红绿灯”、“交通标志”和“行人”，模型表现出过度的创造性，生成了过于风格化的红绿灯，并将“行人”渲染成草图的形式。对于“骑行者”类别，Stable Diffusion模型甚至想象成了海上的冲浪者。

图7结果表明，实力采样器（顶部）虽然使模型能够生成多样的实例，但场景细节有限。而场景创作者（中间行）使模型能够生成天气和光照效果，但整体效果相对较为微弱。通过场景描述器精心编写的详细描述，模型（底部行）能够生成复杂的场景细节，并带来更多样化的天气和光照效果，显著提升了生成图像的多样性和逼真度。

对于语义分割，我们在使用Cityscapes作为源域数据集的领域泛化设置下进行实验，并在ACDC、BDD100k和DarkZurich等目标领域数据集上进行测试。实验结果表明，WeatherDG能够显著提高不同最先进方法的性能。

5 结论

本文提出了WeatherDG，一种用于在恶劣天气条件下实现语义分割领域泛化的新方法。通过结合Stable Diffusion和大型语言模型之间的协作，我们的方法能够仅依赖文本自动生成大量逼真图像，改善语义分割模型在真实世界中的表现。实验结果证明，WeatherDG显著提升了语义分割性能，为自动驾驶领域的鲁棒性设立了新的标杆。

#马斯克一夜狂揽1万亿！特斯拉销量爆了

起起落落马斯克，这次又一晚上狂揽1万亿

第700万台车下线，Q3财报又远好于预期，特斯拉又“支棱”起来了：

汽车业务营收首次突破200亿美元（约1423亿元）大关，同比增长6%；净利润21.7亿美元，同比增长17%；车辆毛利率大超市场预期，达到20%。

市场给出了十足的肯定：盘中最高上涨到每股262.2美元（约1866.8元），股价收盘大涨22%，市值一夜暴涨超过1500亿美元（约10680亿元），创下十一年来单日股价最大涨幅。

马老板的身价由此一夜涨到2678亿美元（约1.9万亿元），周四一天就贡献了10%的增幅。

也许是记住了上一次财报会议“大放厥词”，一夜损失4000亿的教训，也许是画了好大一张饼的Robotaxi，终于亮相却遭一片唏嘘。

这一次的财报电话会议上，马斯克在提到明年的汽车销量预期时仍然很大胆，但表述却“审慎”许多：

承担着一点风险，我想给出一些粗略的估计，我认为明年的汽车销量将增长20%至30%。只是我的猜测，我的最佳猜测。

财报关键信息

特斯拉的销售数据，比财报公布得更早一点。

第三季度，特斯拉的销量继续回暖，交付了大约46.3万辆车，同比增长6%，环比增长4.3%。其中Model 3和Model Y的交付量为439974台。

今年前三季度，特斯拉累计交付129.4万辆车，同比下滑2%，主要是受第一季度不足40万辆的销量拖累。

马斯克认为这种回暖趋势还会延续，因为他在电话会议中预测，特斯拉2024年的全年销量将实现正增长，也就是四季度销量Flag已经立下：至少要达到51万台。

而且对于明年的销量，马斯克更加乐观，认为2025年特斯拉的汽车销量将增长20%到30%。

10月22日，在美国弗里蒙特工厂，特斯拉下线了第700万辆电动汽车。

回头看，特斯拉花了12年时间，让第100万辆车下线；从100万辆到700万辆，却只花了四年。

这700万辆汽车当中，有300万辆都来自上海工厂，并且有100万辆已经出口海外市场，是特斯拉除美国本土工厂之外，第一个名副其实的超级工厂。

同时，中国也是特斯拉最重要的市场之一，第三季度在中国卖出18.2万辆车，同比增长30%。

相比起欧洲，中国消费者更加愿意听到电动汽车的声音。而在其他地区，特斯拉更多还是靠储能业务获利。

在财报的关键指标中，营业收入方面，第三季度特斯拉整体的营业收入为251.82亿元，同比增长7.9%，环比下降1.25%，低于市场预期的255亿美元，但还处在合理的波动范围内。

按照业务细分收入结构，第三季度来自汽车业务的营收为200.16亿美元，同比增长2%，占总收入比重的79.5%。

能源生产和存储业务方面的营收为23.76亿美元，比去年同期增长52%；服务和其他业务收入为27.9亿元，同比增长29%。

虽然储能业务只占总收入的9.4%，但收入增速是三类业务中最高的，可能会在未来成为特斯拉的新增长点。

最大的亮点，实际上来自特斯拉这一季度的利润表现。

第三季度，特斯拉的净利润为21.67亿美元，较去年同期增长17%，较上一季度增长46.6%。

净利润增长，一个原因来自交付量的提升，另一个原因就是生产电动车的特斯拉，正在向政府出售多余的碳信用额度，这为特斯拉提供了7.39亿美元（约52.6亿元）的纯利润。

第三季度毛利润49.97亿美元，同比增长20%，环比增长9%；这一季度整体毛利率达到了19.8%。

汽车毛利率大超预期，达到20.1%；剔除“卖碳”利润，汽车毛利率仍有17.1%。

特别的是，Cybertruck的毛利率也首次实现了转正。

这对马斯克来说，可谓“夸夸打脸”，因为毛利润的增长，很大一部分是来自于特斯拉的汽车维修服务，以及通过超级充电网络销售能源。

这可和他之前所说的背道而驰：

我们对服务的理念是不靠服务赚钱，我觉得靠服务赚钱是很糟糕的。

增利又增收，特斯拉的现金储备前所未有的丰厚：截至第三季度末，还有336.5亿美元的现金及现金等价物，相当于人民币2395.8亿元。

周四财报公布后，股价收盘上涨近 22%，创下十多年来最大的单日涨幅，市值暴涨近1500亿美元（约合人民币10680亿元），市场表现了充足的热情。

既因为这份财报成绩确实足够亮眼，也因为马斯克对销量的乐观预测，以及在财报电话会议中，又对新的亮点侃侃而谈。

马斯克怎么评价？

从马斯克的描述中，可以归结出特斯拉未来的三个主要增长点：AI，储能，新车型。

关于AI方向的增长，其核心业务自动驾驶，包括L2和L4两个维度。

L2维度上，马斯克上个月透露了今年9月到明年一季度的“AI路线图”，其中包括9月份发布FSD 12.5版本，10月推出 13版本，并且在明年第一季度，把FSD推向中国和欧洲。

已经发布的FSD软件版本V12，采用AI3和AI4的统一模型，被特斯拉装到了5年前搭载HW3的老款车型上，不仅是Model系列，也包括Cybertruck车型。

这个版本采用端到端技术体系，不再是以往模块化、手写规则的模式，全部由AI模型来搞定，堪称有导航几乎能去任何地方。

FSD想要获取更好的性能，一大指标就是两次干预之间的里程数。

更新V12版本后，干预里程数有了明显提升，必要干预间隔时间缩短了3倍。模仿人类驾驶行为也更自然流畅，而且以前“难以决策提前变道”的问题也有了进步。

按照计划，10月份还会推出 V13版本，取消驶离、停车和倒车的步骤，据马斯克放话，干预间隔里程可以再提高5-6倍。

根据特斯拉估算，到2025年第二季度，FSD将超过人类关键干预的平均间隔里程数，也就是“比人类司机更安全”。

说到这，马斯克还留了一个大惊喜，表示搭载HW3的车辆可能无法达到无监管的 FSD 所需的安全水平，如果确实如此，特斯拉会免费将HW3 升级到HW4。

L4层面，备受瞩目的Robotaxi终于在10月10日公布，尽管有不少人并不买账。

在当天的We，Robot发布会上，Cybercab 和 Cybervan相继亮相，没有方向盘，没有踏板，用的是新一代的AI5硬件。

软件方面，可以在应用程序中，看到当前的行驶的路线，还有多久到达等信息。不过目前整个网络正在搭建中，还处于早期阶段。

除自动驾驶以外，AI路线图上还有人形机器人。We，Robot发布会还出现了Optimus机器人的身影，倒酒、猜拳都能拿捏，手指很灵活，马斯克现场承诺：未来帮你遛狗看孩子。

在这次财报电话会议上，马斯克透露，之后的人形机器人应该可以实现22个自由度，是之前的两倍，依赖的算力也会大幅提升，这样的人形机器人会和人类非常相像。

特斯拉的第二个增长点，围绕的是能源业务。

MegaPack当前的稼动率达到40%，生产能力正在逐步提升，并且特斯拉计划，明年第一季度，在上海的第二家MegaPack工厂将进入投产。届时，特斯拉的年产能将达到20GWh。

储能方面，储能业务的营收同比增长52%，是三类业务中增速最高的，特斯拉把它描述成“像野火一样快速增长”。

特斯拉预计不久后，每年的固定储能产能有望达到100吉瓦时，甚至最终可能达到每年数TWh。

汽车产量和固定储能产量都在大幅增加，因此也更加需要大量的电芯，目前大部分电芯仍将来自于外部供应商。

不过，马斯克特别提到了内部的4680电池，称4680是特斯拉最有成本竞争力的电芯，与其他替代方案相比，每千瓦时的落地成本更低，4680也会向外部企业提供。

最后一个增长点，聚焦的是特斯拉的新车型。

一个是高端电动跑车Roadster，当前大部分设计已完成，后续还会升级，预计将于明年正式投产。

还有一款受到最多关注的2.5万美元车型，传说中的“Model 2”，也会在明年上半年投产，不过可能会和现有车型共线生产。

这也让外界担心，“降本”的效果是否还会显著？

但马斯克的关注重心和市场并不相同，他认为，单一关注2.5万美元车型的时间，意义并不大，Roadoster也只是锦上添花。

特斯拉更大的使命是加快全球能源革命，更关注整个出行体验，考虑如何通过车辆提供更好的出行方式：

在车辆成本方面，我们反复强调会努力降低单车成本，但具体到一款车型的推出时间并不重要。最重要的是，我们要降低每英里出行的成本。

除了这两款新车，马斯克还透露了一个新信息，是关于2022年12月就开始首批交付，但之后一直没传来动静的Semi。

目前所有交付的200辆Semi，都配备了FSD，预计到2025年Semi会开始大规模生产，美国的新工厂也会在明年投建，计划2026年全面投产。

最后，马斯克还是一如既往地爱“饼”，展望2025年的计划，特别是Robotaxi的计划，他认为明年就能够提供无人驾驶付费乘车服务，前提是顺利获得加州和德州的无人驾驶网约车服务许可。

但从监管层面来看，尤其是加州，可能需要点时间。对于加州“严苛”的监管，马斯克显得很不满：

如果特斯拉明年在加州没有获得无监管的 FSD 许可，我会十分震惊，因为Waymo都已经在加州投入运营了。

One More Thing

对特斯拉的下一个增长周期的看好，另一个核心因素可能还是来自中国。

升级版的新Model Y “Juniper”已经下产线，在上海首次亮相：

外观改款基本和新Model 3相同，前脸车灯变化较大。

据说，上海下线的还是工程试制车，今年上新不太可能，最快也要明年量产交付。

改款外观还在其次，重要的是智驾——HW 4.0上车。

不分价位不分能源形式的中国最畅销SUV，加上最强智驾硬件平台，再加上国内已经获准落地测试的FSD…

明年的老马，可能笑的更开心。