三木今天学习了嘛-CSDN博客

原创【Feed-forward optimization】 in Visual Geometry Grounded and 3DGS

几种 Feed-Forward 3DGS 路线

2025-08-22 16:11:01 1176

原创【CVPR2025】FlowRAM：用区域感知与流匹配加速高精度机器人操作策略学习

在高精度任务中，机器人操控对于众多对精度和速度要求极高的工业和实际应用至关重要。然而，目前基于扩散的策略学习方法由于推理过程中的迭代去噪过程，计算效率普遍较低。此外，这些方法并未充分挖掘生成模型在增强3D环境中信息探索方面的潜力。为此，我们提出了FlowRAM，这是一个利用生成模型实现区域感知的全新框架，能够高效地处理多模态信息。具体而言，我们设计了一个动态半径调度机制，它能够实现自适应感知，促进从全局场景理解到细粒度几何细节的过渡。此外，我们集成了状态空间模型来整合多模态信息，同时保持了线性计算复杂度。

2025-07-30 19:51:32 1404

原创【GaussianEditor】代码理解和输出格式

使用 kitchen 数据集和指定的初始高斯点云，基于 tractor 的语义掩码进行训练，从 0 开始 densify 高斯点，在训练过程中加入 anchor 约束损失和 inpaint 操作，训练最多 2000 步，并将结果记录到 wandb 项目 del_tracker 中。update_mask() 是从文本语义出发，构建“哪些高斯点属于待编辑目标”的方法，确保模型在训练时能聚焦在正确区域，是真正实现“语言驱动 3D 编辑”的基础桥梁。这种层次化结构有助于在训练过程中逐步细化模型，提高渲染质量。

2025-06-08 15:24:34 892 1

原创【RoboSplat】代码理解和输出格式

本文介绍了RoboSplat项目中基于高斯点云渲染的数据增强系统架构。代码仓主要包含数据目录(data/)和增强脚本目录(data_aug/)，其中核心脚本generate_demo.py通过将原始专家轨迹(.h5文件)进行高斯渲染重演，生成新的增强轨迹。关键流程包括：1)提取夹爪状态变化的关键帧；2)对关键位姿施加随机的平移和旋转扰动；3)使用逆运动学(IK)和插值生成新轨迹；4)高斯渲染生成图像序列。该系统能够有效扩充机器人演示数据，支持物体位姿、视角和外观等多种增强方式，为机器人学习提供更丰富的训练样

2025-06-02 17:20:30 922 1

原创【Gaussian Splatting & InstantSplat】代码理解和输出格式

本文记录3D Gaussian Splatting（3DGS）的环境搭建与源码解析。

2025-05-29 22:02:39 838

原创【附录】What should be included in the appendix?

本文展示了sgr和3da任务的描述图例及相关超参数配置，并分析了3da任务的失败案例。内容包括任务图示、参数设置表格以及错误示例图片，聚焦于模型性能评估与优化方向。通过图文结合的方式，系统呈现了实验设计与结果分析的关键信息。

2025-05-27 12:10:18 221

原创【RL in VLA】VLA中的强化学习

本文提出了一种名为 Reinforcement Learning Distilled Generalist（RLDG）的方法，通过强化学习生成高质量训练数据来微调机器人基础模型。通过在多个精确操作任务上的实验，我们证明了 RLDG 在成功率和泛化能力上显著优于使用人类演示的传统微调方法。RLDG 不仅减少了对人类演示数据的依赖，还展示了在复杂多阶段任务中的灵活性和有效性。

2025-04-14 12:15:02 1588

原创【VLA 中的 VLM】(一) SigLIP 与 PaliGemma及其后续改进

PaliGemma 2 的核心在于将 PaliGemma 所使用的 SigLIP-So400m 视觉编码器与 Gemma 2 系列的全部语言模型结合，涵盖从 2B 到 27B 的各种模型规模。下图：输入图像通过图像Encoder（SigLIP）转换为一系列标记，文本通过 Gemma 的 SentencePiece 分词器转换为标记并嵌入，然后将图像标记和文本标记组合成输入序列（full attention），语言解码器自回归地生成预测文本（casual attention）。

2025-03-31 11:33:21 1429

原创【Open X-Embodiment】简单数据下载与预处理

下载的流程

2025-02-23 21:01:34 1127 1

原创【Something helpfull】自用指令

常用的一些指令，不定期更新

2025-02-23 11:25:13 500

翻译【论文阅读】Autoregressive Models in Vision: A Survey

自回归模型在自然语言处理（NLP）领域取得了巨大成功。最近，自回归模型在计算机视觉中也成为一个重要的研究领域，它们在生成高质量视觉内容方面表现出色。与NLP中通常操作的子词元不同，计算机视觉中的表示策略可以在不同层级变化，即像素级、标记级或尺度级，反映了视觉数据与语言的序列结构相比的多样性和层次性。本综述全面检查了应用于视觉的自回归模型文献。为了提高来自不同研究背景的研究人员的可读性，我们首先介绍视觉中的初步序列表示和建模。

2024-12-29 16:55:13 783 1

原创【Robocasa】Code Review

本教程提供了在 robomimic 中实现自定义算法的示例。我们选择实现最近提出的TD3-BC算法。实现 TD3-BC 的自定义Config类。实现 TD3-BC 的自定义Algo类。现在我们定义我们的扫描。policy learning rate，范围为 [1e-3, 1e-4]是否使用 GMM 策略是否使用 RNN 维度为 400 且 MLP 尺寸为 (1024, 1024)，或者 RNN 维度为 1000 且没有 MLP注意，学习率位于group1，GMM 启用参数位于group。

2024-12-02 19:34:52 1548

原创【论文阅读】点云预测-机器人操作

摘要：本研究提出了一种名为IMAGINATION POLICY的多任务操作策略网络，旨在解决高精度的拾取和放置任务。与传统的动作直接生成方法不同，IMAGINATION POLICY通过生成目标状态的点云并利用刚性动作估计来推断动作。通过引入任务中的几何对称性，IMAGINATION POLICY提高了样本效率，并在RLbench基准上表现出优异的性能。

2024-11-27 13:26:24 1554 1

原创【论文阅读】三平面相关与变体

相当于点查询公式，TPV 平面沿各自正交方向扩展并相加时，构造出类似于体素特征空间的全尺寸 3D 特征空间，但存储和计算复杂度仅为 O(HW + DH + W D)，比体素对应项低一个数量级。与 BEV 相比，由于 TPV 中的三个平面彼此垂直，因此沿一个平面正交方向的点特征会被从其他两个平面采样的特征所多样化，而 BEV 表示会忽略这一点。具体而言，为了获得 3D 空间中点的特征，我们首先将其投影到三个平面中的每一个平面中，并使用双线性插值来获得每个投影点的特征。

2024-11-25 22:00:47 1440 1

原创【论文阅读】skill code 和 one-shot manipulate

自然语言，作为人类获取新知识的首要媒介，为将人类理解的概念转化为机器可学习格式提供了潜在的直观桥梁。在顶层，模型的任务是学习离散的技能代码；而在底层，策略网络将问题转化为体素化网格，并将离散化的动作映射到体素网格上。我们提出了一种名为不变匹配一次性策略学习（Invariance-Matching One-shot Policy Learning, IMOP）的算法。

2024-08-29 15:34:31 1183 1

原创【论文阅读】通用的语义-几何表征的机器人操作

旨在通过改进视觉和动作表示来提高样本效率。SGRv2的核心设计是引入了一个关键的归纳偏差——动作局部性（action locality），它认为机器人的动作主要受目标物体及其与局部环境的交互影响。

2024-08-21 20:57:44 1545 2

原创【强化学习——AI问答】在强化学习部分遇到的模糊概念

由于噪声的均值为0，所以对Q的均值求期望，就等于对x求期望。然而，Q最大值的期望却会大于等于x的最大值，且Q最小值的期望也会小于等于x的最小值。状态价值函数(State-value function)，是不是任何一个策略pi，执行下一步所有可能的动作所带来的动作价值的期望。理解为，当前状态下，执行所有可能动作的带来的收益，一定程度上反映了当前状态的优劣？我是这样理解的：DQN是要学一个最优动作价值函数，而最优动作价值函数是在t时刻动作和环境下的，回报期望最大值。强化学习中DQN算法是基于价值学习的。

2024-07-08 09:11:29 347

原创【论文阅读】LLM+3D (1)

1）利用3DSG的层次性质，允许LLMs通过语义搜索从完整图的较小、压缩表示中寻找与任务相关的子图；2）通过集成经典路径规划器来缩短LLM的规划范围；3）引入一个迭代重规划流程，利用场景图模拟器的反馈来细化初始计划，纠正不可行的动作，避免规划失败。SHAPELLM 架构：SHAPELLM 结合了一个预训练的3D编码器和一个大型语言模型（LLM），用于有效的3D表示学习和理解。特别是，采用了 LLaMA 作为其 LLM，并提出了一个名为 RECON++ 的新型3D模型作为3D编码器。

2024-07-05 13:56:03 1988 1

原创【论文阅读——机器人操作】

人类能够形成3D场景的心理图像，以支持反事实想象、规划和运动控制。

2024-05-31 11:29:13 1793 1

原创【Diffusion policy】

3D 感知表示非常适合机器人操作，因为它们可以轻松编码遮挡并简化空间推理。许多操纵任务在末端执行器姿态预测中需要高空间精度，这通常需要高分辨率的 3D 特征网格，而处理起来的计算成本很高。因此，大多数操纵策略直接在 2D 中运行，而忽略了 3D 归纳偏差。在本文中，我们介绍了 Act3D，这是一种，它使用 3D 特征场来表示机器人的工作空间，其自适应分辨率取决于手头的任务。该模型使用感测深度将 2D 预训练特征提升到 3D，并利用它们来计算采样 3D 点的特征。

2024-05-31 08:44:26 1308

原创【Multi-Task Robotic Manipulation】

PERPACT 使用 Perceiver Transformer 对语言目标和 RGB-D 体素观察进行编码，并通过“检测下一个最佳体素（voxel）动作”输出离散化动作。与操作 2D 图像的框架不同，体素化 3D 观察和动作空间为有效学习 6-DoF 动作提供了强大的结构先验。虽然 PERACT 功能相当强大，但将其扩展到灵巧的连续控制仍然是一个挑战。PERACT 受基于采样的运动规划器的支配来执行离散动作，并且不容易扩展到像多指手这样的 N-DoF 执行器。

2024-04-06 08:37:27 1819

原创【Functional Affordances】如何确认可抓取的区域？（前传）

如何确定可抓取的区域、利用stable diffusion特征、语义之间的correspondance。

2024-03-27 09:25:18 1023

原创【Functional Affordances】机器人manipulation

本文介绍了Robo-ABC框架，这是一个旨在提高机器人在操作任务中泛化能力的方法，特别是在面对未见过的物体时。Robo-ABC通过从互联网上的人类视频中提取可操作性记忆（包括接触点），使机器人能够通过检索视觉或语义上相似的物体来获取新的可操作性。该框架利用预训练的扩散模型自然地建立对应关系，从而实现跨不同物体类别的可操作性映射。Robo-ABC不需要手动注释、额外训练、部分分割、预编码知识或视角限制，就能以零样本的方式泛化操作跨类别物体。

2024-03-26 11:22:22 2256

原创【强化学习抓取】偏机器人领域（略）

尽管双指抓取已经在文献中得到了广泛的研究，但多指机器人手的抓取仍然是一个开放的问题。类人手提供了执行灵巧任务的机会，例如物体重定向和使用工具（如锤子），但同时也带来了控制上的挑战，因为需要控制的自由度（DoFs）数量众多，使得寻找合适的操控策略变得困难。深度强化学习（DRL）的最新进展提供了设计高维控制策略的工具，而无需对环境和手部进行特定建模。然而，现有的无模型算法（如SAC或PPO）在学习多指操控任务时效率不高，因为在这些情况下，由于问题的高维性，环境的有效探索在策略优化的初始阶段是不可行的。

2024-03-12 11:32:16 1538

原创【论文阅读-基于地图重建的导航】Vison-Language Navigation （3）

为了表示以前访问过的环境，VLN 的大多数方法使用循环状态、拓扑图或自上而下的语义图来实现内存我们构建了自上而下的自我中心和动态增长的网格记忆图(即GridMM)来构建访问的环境。从全局角度看，历史观测以自上而下的视角投影成统一的网格图，更能体现环境的空间关系。从局部的角度出发，我们进一步提出了一种指令关联聚合方法来捕获每个网格区域的细粒度视觉线索。大规模预训练在视觉和语言导航（VLN）任务上取得了有希望的结果。

2024-03-04 10:39:59 1921 1

原创【论文阅读-基于VilLBERT方法的导航】Vison-Language Navigation 视觉语言导航（2）

视觉和语言导航(VLN)需要一个具身的智能体在现实的3D环境中使用自然语言指令进行导航。现有的VLN方法在小规模环境或不合理的路径指令数据集上进行训练，限制了对不可见环境的泛化。YouTube上有大量的房屋游览视频，提供了丰富的真实导航体验和布局信息。然而，这些视频之前还没有为VLN进行过探索。在本文中，我们提出通过创建一个大型数据集来从这些视频中学习智能体，该数据集包含来自房屋参观视频的合理路径-指令对（path-instruction pair），并在其上预训练智能体。

2024-03-01 21:13:15 1368 1

原创【论文阅读】Vison-Language Navigation 视觉语言导航（1）

我们研究了一个简单的框架，车轮上的CLIP（CoW，CLIP on Wheels），以在不进行微调的情况下使开放词汇模型适应这项任务。为了更好地评估L-ZSON，我们引入了PASTURE基准，该基准考虑了查找不常见的对象、由空间和外观属性描述的对象以及相对于可见对象描述的隐藏对象。我们将CoW视为一个使用开放词汇表模型（open vocabulary model）和基于文本的界面在更灵活的环境中处理机器人任务的例子。

2024-02-27 10:18:34 3717 1

原创开放词汇场景图生成Open vocabulary scene graph generation

提出了一种两步法，该方法首先对大量粗粒度数据进行预训练，然后利用两种基于prompt的技术对预训练模型进行微调，而不更新其参数。本文主要介绍了一种利用预训练视觉-语义空间（VSS）来解决场景图生成（SGG）中的两个难点的方法：1）训练SGG模型需要耗费大量时间和人力进行地面真实注释， 2）现有的SGG模型通常涉及预定义的有限物体类别，限制了它们识别训练语料库之外的新颖物体的能力。

2024-02-22 11:53:56 2926

原创【论文阅读】GraspNeRF: Multiview-based 6-DoF Grasp Detection

本文首次提出了一种基于多视图rgb的六自由度抓取检测网络GraspNeRF，该网络利用可推广的神经辐射场(NeRF)在杂波中实现与材料无关的物体抓取。我们的系统可以使用稀疏 RGB 输入执行零样本 NeRF 构造，并实时可靠地检测 6-DoF 抓取。

2024-01-26 16:13:21 2434 1

原创【论文阅读】Grasp-Anything: Large-scale Grasp Dataset from Foundation Models

提出了“Grasp-Anything”，这是一个由基础模型合成的新的大规模抓取数据集，用于机器人抓取检测的新的大规模语言驱动数据集。Grasp-Anything 在多样性和数量上都很出色，拥有100万个带有文本描述的样本和超过300万个对象，超过了以前的数据集。根据经验，我们证明了在基于视觉的任务和真实世界的机器人实验中，抓取任何东西都能成功地促进零镜头抓取检测。

2024-01-26 11:01:48 2797 3

原创 BLIP-2 官方库学习

BLIP-2通过在冻结的预训练图像编码器和大型语言模型（LLM）之间训练一个轻量级的12层Transformer编码器，利用它们，在各种视觉语言任务中实现最先进的性能。最值得注意的是，BLIP-2在可训练参数减少54倍的零样本VQAv2上比Flamingo（800亿参数模型）提高了8.7%。本文提出了 BLIP-2，这是一种通用且高效的预训练策略，可从现成的冻结预训练图像编码器和冻结大型语言模型引导视觉语言预训练【hidden_size（int，可选，默认为1408）——编码器层和池器层的维度。

2023-12-15 09:53:29 1432

原创【Code Reading】Transformer in vision and video

最后一行是单独做的实验，去掉了Model2的temporal transformer，直接在帧上做了pooling，EK上的精度下降很多，对于时序强的数据集需要用temporal transformer来做时序信息交互。在论文的Table1中有给出三个模型（Base/ Large/ Huge）的参数，在源码中除了有Patch Size为16x16的外还有。model3的实现和TimeSformer的实现是一样的，去掉cls-token即可，可以参考TimeSformer的文章。，这里把时间维度单独抽出来。

2023-11-02 17:32:10 627

单闭环直流调速系统仿真实验

双闭环直流调速系统仿真

交通灯1-716.rar

【AlexNet】0积分下载.rar

【LeNet】0积分下载.rar

Coursera-ML-AndrewNg-Notes-master.rar

Aline_invasion.rar

空空如也