自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(261)
  • 资源 (2)
  • 收藏
  • 关注

原创 论文笔记(八十四)Shelving, Stacking, Hanging: Relational Pose Diffusion for Multi-modal Rearrangement(二)

**我们提出了一个系统,用于重新排列场景中的物体,以实现所需的物体–场景放置关系,例如将书插入书架的一个开放槽中。** 该流程能够推广到新的几何形状、姿态以及场景和物体的布局,并通过示范进行训练,直接在3D点云上运行。我们的系统克服了给定场景存在许多在几何上相似的重排解决方案所带来的挑战。通过利用迭代姿态去噪训练过程,我们能够拟合多模态示范数据并产生多模态输出,同时保持精确和准确。我们还展示了在条件于相关的局部几何特征、同时忽略那些损害泛化性和精确性的不相关全局结构时的优势。我们在仿真和现实世界中,通过三个

2025-05-04 21:13:57 640 1

原创 论文笔记(八十四)Shelving, Stacking, Hanging: Relational Pose Diffusion for Multi-modal Rearrangement(一)

**我们提出了一个系统,用于重新排列场景中的物体,以实现所需的物体–场景放置关系,例如将书插入书架的一个开放槽中。** 该流程能够推广到新的几何形状、姿态以及场景和物体的布局,并通过示范进行训练,直接在3D点云上运行。我们的系统克服了给定场景存在许多在几何上相似的重排解决方案所带来的挑战。通过利用迭代姿态去噪训练过程,我们能够拟合多模态示范数据并产生多模态输出,同时保持精确和准确。我们还展示了在条件于相关的局部几何特征、同时忽略那些损害泛化性和精确性的不相关全局结构时的优势。我们在仿真和现实世界中,通过三个

2025-05-04 16:34:09 1018 1

原创 论文笔记(八十三)STACKGEN: Generating Stable Structures from Silhouettes via Diffusion

人类通过观察和与世界互动,自然而然地获得对刚性物体相互作用及稳定性的直觉。正是这种直觉支配了我们在环境中配置物体的方式,使我们能够利用简单的日常物体构建复杂结构。另一方面,机器人代理传统上需要一个包含每个物体的详细几何信息和环境动态分析模型的显式世界模型,而这种模型难以扩展且无法实现泛化。相反,机器人将受益于对直觉物理的认知,使其能够以类似方式推理环境中物体的稳定相互作用。为实现这一目标,我们提出了 **STACKGEN**——一种扩散模型,**用于生成与目标轮廓匹配的多样化稳定积木配置。** 为了展示该方

2025-05-02 18:16:04 1116 1

原创 论文笔记(八十二)Transformers without Normalization

归一化层在现代神经网络中无处不在,并且长期以来被认为是必不可少的。本工作表明,通过一种非常简单的技术,不使用归一化的Transformer也能达到相同或更好的性能。我们提出了动态Tanh (Dynamic Tanh——DyT),一种逐元素操作$\text{DyT}(x)=\tanh(\alpha x)$,可作为Transformer中归一化层的直接替代。$\text{DyT}$的灵感来源于观察到Transformer中的层归一化通常会产生类似tanh的“S型”输入输出映射。通过引入$\text{DyT}$,

2025-04-30 20:09:44 1266 1

原创 论文笔记(八十一)Online Replanning with Human-in-The-Loop ... A Trajectory Optimization based Approach

我们关注的问题是在一个模拟仓库环境中,多台机器人并行尝试解决穿越杂物的到达(reaching through clutter)问题。在这样的环境下,我们研究了通过引入人机交互(human-in-the-loop)为机器人规划器提供指导所能带来的性能提升。这些操作问题对自主规划器而言极具挑战性,因为它们必须在高维空间中搜索解决方案。此外,物理模拟器存在不确定性问题:在仿真中有效的轨迹在现实世界执行时可能会失效。为了解决这些问题,我们提出了一种带有人机交互的在线重规划方法。该系统使机器人能够自主规划并执行轨迹,

2025-04-30 01:26:48 309 1

原创 论文笔记(八十)π0.5: a Vision-Language-Action Model with Open-World Generalization

为了让机器人发挥实际作用,它们必须在真实世界、实验室之外执行与实际相关的任务。虽然视觉-语言-动作(VLA)模型在端到端机器人控制上已经展示出令人印象深刻的效果,但这些模型在实际环境中的**泛化能力**仍是一个未解的问题。我们描述了 $π_{0.5}$,一个基于 $π0$ 的新模型,它使用在异构任务上的协同训练来实现广泛的泛化能力。**$π_{0.5}$ 利用来自多个机器人、高级语义预测、网络数据和其他来源的数据,从而实现广泛可泛化的现实世界机器人操作。** **我们的系统结合了协同训练和混合多模态示例,这

2025-04-26 21:32:44 1015 1

原创 论文笔记(七十九)STOMP: Stochastic Trajectory Optimization for Motion Planning

我们提出了一种**基于随机轨迹优化框架的新型运动规划方法**。该方法依赖于生成带噪声的轨迹以探索围绕初始(可能不可行)轨迹的空间,然后将这些轨迹合成以生成具有较低代价的更新轨迹。在每次迭代中,我们优化了一个基于障碍物代价和平滑度代价组合的代价函数。由于我们所使用的特定优化算法不需要梯度信息,因此对于那些可能没有可用导数的一般代价(例如对应约束和电机扭矩的代价)也可以被包含在代价函数中。我们在仿真中以及在移动操作系统上分别针对无约束和有约束任务演示了该方法。通过实验,我们展示了STOMP算法的随机性质使其能够

2025-04-24 17:28:08 1250 1

原创 零碎的知识点(十九):协方差与协方差矩阵:从入门到精通,彻底掌握数据关系的数学本质

协方差(Covariance)和协方差矩阵(Covariance Matrix)是统计学与机器学习中**最基础、最核心的工具**之一。它们不仅揭示了变量间的隐藏关系,更是主成分分析(PCA)、投资组合优化、多元回归等高级技术的数学基石。本文将通过**零基础可懂的直观解释、手写公式推导、Python代码实战和工业级应用案例**,带你彻底吃透协方差与协方差矩阵。

2025-04-22 02:55:17 740

原创 论文笔记(七十八)Do generative video models understand physical principles?

AI视频生成正经历一场革命,其质量和真实感正在迅速提升。这些进展引发了一场激烈的科学辩论:视频模型是否在学习“世界模型”,从而发现物理定律——或者说,它们只是一些精巧的像素预测器,在没有理解现实物理原理的情况下实现视觉真实感?我们通过开发Physics-IQ来回应这一问题,这是一个全面的基准数据集,只有通过对各种物理原理的深入理解才能解决,例如流体动力学、光学、固体力学、磁学和热力学。我们发现,在一系列现有模型中(包括Sora、Runway、Pika、Lumiere、Stable Video Diffusi

2025-04-20 23:05:03 975 1

原创 论文笔记(七十七)Intuitive physics understanding emerges from self-supervised pretraining on natural videos

我们研究了在通用深度神经网络模型中直观物理理解的出现,这些模型经过训练以预测自然视频中被遮掩的区域。利用“违背期望”框架,我们发现,在学习到的表征空间中进行预测的视频模型,能够展示对多种直观物理属性的理解,例如物体永恒性和形状一致性。相比之下,在像素空间中进行视频预测的模型,以及通过文本推理的多模态大型语言模型,其表现更接近随机水平。我们对这些架构的比较表明,同时学习一种抽象表征空间并预测感官输入的缺失部分(类似于预测编码)就足以获得对直观物理的理解;即便是仅在一周独特视频上训练的模型,也能达到高于随机的表

2025-04-20 20:53:28 887 1

原创 具身智能零碎知识点(四):联合嵌入预测架构(JEPAs)详解

**联合嵌入预测架构(JEPAs)** 是一种自监督学习框架,旨在通过**预测隐空间(Latent Space)的抽象特征**而非原始数据(如图像像素),来高效学习数据的本质规律。它结合了对比学习(对比嵌入)和预测建模的优势,目标是让模型在低维嵌入空间中捕捉数据的高层语义关系。

2025-04-20 16:29:47 642

原创 具身智能零碎知识点(三):深入解析 “1D UNet”:结构、原理与实战

**1D UNet** 是一种专为处理一维序列数据(如音频、时间序列、传感器信号)设计的深度学习模型。它通过 **“编码-解码”结构** 和 **跳跃连接(Skip Connection)** 实现高效特征提取与细节恢复,广泛应用于信号去噪、时序预测、语音增强等任务。

2025-04-12 21:49:06 1024

原创 python小记(十二):Python 中 Lambda函数详解

**Lambda函数**是Python中的匿名函数(无名函数),它以简洁的单行语法实现小型功能。与普通函数(`def`定义)不同,Lambda函数无需命名,常用于临时操作或作为高阶函数的参数传递。

2025-04-12 20:50:43 1421

原创 论文笔记(七十六)TossNet: Learning to Accurately Measure and Predict Robot ... With Proprioceptive Sensing

对于动态机器人操作(例如,投掷和接捕)的精确测量和建模尤为具有挑战性,这是由于高速机器人运动及极具动态性的机器人与物体之间在极短距离和时间内发生交互时所表现出的固有非线性、复杂性和不确定性。大多数研究利用诸如视觉和触觉反馈等外部传感器,以任务或物体为中心进行操作动力学的建模,然而这可能因高昂成本和复杂性(例如,环境限制)而遇到瓶颈。在本研究中,我们探讨了是否仅依靠板载本体感觉传感方式就能有效捕捉和刻画动态操作过程。具体而言,我们提出了一种与物体无关的策略,该策略通过机器人投掷运动的时空变化以及手腕力/力矩(

2025-04-11 21:12:29 848 1

原创 具身智能零碎知识点(二):深入解析 “残差映射”

深入解析 “残差映射”

2025-04-11 15:36:28 777

原创 Diffusion Policy Visuomotor Policy Learning via Action Diffusion官方项目解读(二)(7)

运行官方代码库中提供的Colab代码:vision-based environment(二)(7)

2025-04-11 01:50:09 418

原创 Diffusion Policy Visuomotor Policy Learning via Action Diffusion官方项目解读(二)(6)

运行官方代码库中提供的Colab代码:vision-based environment(二)(6)

2025-04-10 17:51:16 890

原创 pytorch小记(十八):PyTorch 中四大归一化方法终极解析:BatchNorm/LayerNorm/InstanceNorm/GroupNorm

假设你正在训练一个模型,输入特征是身高(1.6m\~1.9m)和体重(50kg\~100kg)。这两个特征量级差异巨大,模型会疯狂关注体重的变化,而忽略身高的细微差异。**归一化(Normalization)** 就像把身高体重缩放到“-1到1”的区间,让模型公平对待每个特征。它的核心作用:1. **加速训练**:避免梯度爆炸/消失 2. **提升稳定性**:降低对参数初始化的敏感度 3. **增强泛化**:缓解过拟合

2025-04-10 02:40:00 424

原创 Diffusion Policy Visuomotor Policy Learning via Action Diffusion官方项目解读(二)(5)

运行官方代码库中提供的Colab代码:vision-based environment(二)(5)

2025-04-09 20:58:09 795

原创 pytorch小记(十七):PyTorch 中的 `expand` 与 `repeat`:详解广播机制与复制行为(附详细示例)

在使用 PyTorch 构建神经网络时,经常会遇到不同维度张量需要对齐的问题,`expand()` 和 `repeat()` 就是两种非常常用的方式来处理张量的形状变化。本博客将详细解释两者的区别、作用、使用规则以及典型的报错原因,配合实际例子,帮助你深入理解广播机制。

2025-04-09 20:49:34 1419

原创 python小记(十一):Python 列表相加的完整规则与所有可能情况详解(含 `+`, `+=`, `*` 及嵌套列表)

在 Python 中,**列表相加**并不像数学加法那么简单,它遵循的是一套特定的拼接规则,理解这些规则可以避免许多常见错误。

2025-04-09 16:52:03 307

原创 pytorch小记(十六):PyTorch中的`nn.Identity()`详解:灵活模型设计的秘密武器

在PyTorch的深度学习模型开发中,`nn.Identity()`是一个看似简单但功能强大的工具。它虽然不进行任何数学运算,但在实际开发中却能解决许多复杂问题。本文将深入解析`nn.Identity()`的作用、应用场景以及实际代码示例,帮助开发者更好地利用这一“隐形利器”。

2025-04-09 03:08:54 1141

原创 具身智能零碎知识点(一):深入解析Transformer位置编码

深入解析Transformer位置编码

2025-04-08 00:09:55 1237

原创 Diffusion Policy Visuomotor Policy Learning via Action Diffusion官方项目解读(二)(4)

运行官方代码库中提供的Colab代码:vision-based environment(二)(4)

2025-04-07 22:37:50 933

原创 Diffusion Policy Visuomotor Policy Learning via Action Diffusion官方项目解读(二)(3)

运行官方代码库中提供的Colab代码:vision-based environment(二)(3)

2025-04-07 17:49:43 897

原创 Diffusion Policy Visuomotor Policy Learning via Action Diffusion官方项目解读(二)(2)

运行官方代码库中提供的Colab代码:vision-based environment(二)(2)

2025-04-06 20:35:30 1009

原创 python | numpy小记(三):理解 NumPy 中的 `np.ceil`:向上取整的利器

在数据分析和科学计算的过程中,我们经常会遇到“向上取整”的需求,比如分页处理、批次划分、坐标修正等。NumPy 中的 `np.ceil` 函数可以进行向上取整操作。

2025-04-06 19:30:27 450

原创 Diffusion Policy Visuomotor Policy Learning via Action Diffusion官方项目解读(二)(1)

运行官方代码库中提供的Colab代码:vision-based environment(二)(1)

2025-04-06 03:30:22 977

原创 hydra小记(一):深入理解 Hydra:instantiate() 与 get_class() 的区别

在使用 Hydra 进行配置驱动的开发时,我们常常会用到两个实用函数:**hydra.utils.instantiate()** 和 **hydra.utils.get_class()**。虽然它们看起来都与对象的创建有关,但各自的用途和行为有明显区别。下面我们详细解释它们各自的工作模式,并提供示例帮助你在博客中讲解。

2025-04-05 19:39:49 863

原创 论文笔记(七十五)Auto-Encoding Variational Bayes

我们如何在具有连续潜变量的、有向概率模型中进行高效的推断与学习,同时应对后验分布不可解的情况与大规模数据集?我们提出了一种**随机变分推断与学习算法(stochastic variational inference and learning algorithm)**,该算法能够扩展至大规模数据集,并且在满足一些温和的可微性条件下,即使在后验分布不可解的情况下也能正常工作。我们的贡献是双重的。首先,我们展示了对变分下界进行重参数化后,可以得到一个下界估计器,该估计器可以直接使用标准的随机梯度方法进行优化。其次

2025-04-01 17:14:40 768 1

原创 零碎的知识点(十八):边缘似然(Marginal Likelihood)详解

**边缘似然**(也叫**证据**,Evidence)是**在考虑所有可能的参数取值后,观测数据出现的平均概率**。 - **类比**:假设你有一个装有无数枚硬币的袋子,每枚硬币的正面概率\(\theta\)不同。边缘似然就是随机抽一枚硬币,抛5次得到3次正面的**平均概率**。

2025-04-01 02:53:24 948

原创 零碎的知识点(十七):变分推断与Beta分布

**摘要**:变分推断是机器学习中逼近复杂概率分布的强大工具。本文以抛硬币实验为例,结合Beta分布与二项分布,手把手教你如何用变分推断估计硬币正面概率,并提供Python代码实现。无论你是统计新手还是进阶学习者,都能在此找到实用洞见。

2025-04-01 02:13:16 957

原创 论文笔记(七十四)Dense Policy: Bidirectional Autoregressive Learning of Actions

主流的视觉运动策略主要依赖生成模型进行整体动作预测,而当前的自回归策略通过预测下一个标记或片段,表现出次优的结果。这促使人们寻求更有效的学习方法,以释放自回归策略在机器人操作中的潜力。本文提出了一种双向扩展的学习方法,称为Dense Policy,**旨在为动作预测中的自回归策略建立新的范式**。该方法采用轻量级的**仅编码器架构(encoder-only)**,以对数时间推理的方式,从初始单帧迭代展开动作序列,逐步生成目标序列,遵循由粗到细的过程。大量实验验证了我们的Dense Policy在自回归学习能

2025-03-31 20:02:35 917 1

原创 零碎的知识点(十六):ACT(基于Transformer的动作分块)详解

ACT是机器人的“分步计划生成器”。假设机器人要完成“拿水杯→倒水→放下水杯”这一长任务,ACT会将动作分解为多个小段(如每段10步),用Transformer逐段生成,同时确保各段之间的连贯性。 **类比**:写长篇小说时先分章节,再逐章撰写,每章内容参考前文章节。

2025-03-30 00:09:04 789

原创 用 pytorch 从零开始创建大语言模型(三):编码注意力机制

本章内容包括:- 探索在神经网络中使用注意力机制的原因 - 介绍一个基本的自注意力框架,并逐步过渡到增强型自注意力机制 - 实现一个因果注意力模块,使得LLM能够一次生成一个token - 使用dropout随机屏蔽部分注意力权重以减少过拟合 - 将多个因果注意力模块堆叠成一个多头注意力模块 在上一章中,你学习了如何为训练LLM准备输入文本。这包括将文本划分为单词和子词的token,这些token可以被编码为向量表示,即所谓的**嵌入(embeddings)**,供LLM使用。

2025-03-29 22:04:00 853

原创 零碎的知识点(十五):理解条件变分自编码器 Conditional Variational Autoencoders (CVAE):简单原理与数值案例详解

**一句话定义**: 条件变分自编码器(CVAE)是一种生成模型,能够根据给定的条件信息(如标签、文本描述)生成符合特定要求的数据(如图像、文本)。 **类比理解**: 假设你想让画家画一只“戴墨镜的猫”。传统画家(类似普通VAE)自由发挥,而CVAE是“命题画家”——必须按你的要求创作,且能生成多种风格的结果(如卡通猫、写实猫)。

2025-03-28 23:01:36 435

原创 零碎的知识点(十四):“重参数化技巧” 是什么?变分自编码器(VAE)的核心引擎

假设你正在训练一个生成模型(例如变分自编码器,VAE),希望通过神经网络生成逼真的图像。在这个过程中,你需要从某个分布中**随机采样**潜在变量(Latent Variable)来驱动生成过程。但当你尝试直接采样时,会发现一个致命问题:**“随机性”阻断了反向传播的梯度传递**,导致模型无法优化! 这就是 **重参数化技巧(Reparameterization Trick)** 诞生的背景。它被广泛应用于变分自编码器(VAE)、条件变分自编码器(CVAE)、强化学习等领域,是连接概率建模与深度学习的关

2025-03-28 20:09:34 988

原创 零碎的知识点(十三):“自回归策略” 是什么?

自回归策略就像“写作文时,每句话都要参考前面写过的内容”。在人工智能决策中,它指的是一种生成**动作序列**的方法:每一步选择的动作,不仅看当前环境状态,还要参考自己之前已经执行过的动作。**核心思想是“逐步生成,步步为营”**。

2025-03-25 15:51:25 530

原创 用 pytorch 从零开始创建大语言模型(七):根据指示进行微调

本章内容包括:- LLM的指令微调流程 - 为监督式指令微调准备数据集 - 在训练批次中组织指令数据 - 加载预训练LLM并对其进行微调以遵循人类指令 - 提取LLM生成的指令响应用于评估 - 评估一个经过指令微调的LLM

2025-03-25 04:03:00 1125

原创 pytorch小记(十五):pytorch中 交叉熵损失详解:为什么logits比targets多一个维度?

PyTorch交叉熵损失详解:为什么logits比targets多一个维度?

2025-03-25 01:02:20 859

UR5机器人的urdf文件

UR5机器人的urdf文件

2021-03-11

UR5机器人所需”贴图“

UR5机器人手臂模型

2021-03-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除