具身智能-Grasp
文章平均质量分 94
三木今天学习了嘛
行走知识里的拾遗者
展开
-
【论文阅读——机器人操作】
人类能够形成3D场景的心理图像,以支持反事实想象、规划和运动控制。原创 2024-05-31 11:29:13 · 1485 阅读 · 1 评论 -
【Diffusion policy】
3D 感知表示非常适合机器人操作,因为它们可以轻松编码遮挡并简化空间推理。许多操纵任务在末端执行器姿态预测中需要高空间精度,这通常需要高分辨率的 3D 特征网格,而处理起来的计算成本很高。因此,大多数操纵策略直接在 2D 中运行,而忽略了 3D 归纳偏差。在本文中,我们介绍了 Act3D,这是一种,它使用 3D 特征场来表示机器人的工作空间,其自适应分辨率取决于手头的任务。该模型使用感测深度将 2D 预训练特征提升到 3D,并利用它们来计算采样 3D 点的特征。原创 2024-05-31 08:44:26 · 871 阅读 · 0 评论 -
【Multi-Task Robotic Manipulation】
PERPACT 使用 Perceiver Transformer 对语言目标和 RGB-D 体素观察进行编码,并通过“检测下一个最佳体素(voxel)动作”输出离散化动作。与操作 2D 图像的框架不同,体素化 3D 观察和动作空间为有效学习 6-DoF 动作提供了强大的结构先验。虽然 PERACT 功能相当强大,但将其扩展到灵巧的连续控制仍然是一个挑战。PERACT 受基于采样的运动规划器的支配来执行离散动作,并且不容易扩展到像多指手这样的 N-DoF 执行器。原创 2024-04-06 08:37:27 · 1258 阅读 · 0 评论 -
【Functional Affordances】如何确认可抓取的区域?(前传)
如何确定可抓取的区域、利用stable diffusion特征、语义之间的correspondance。原创 2024-03-27 09:25:18 · 758 阅读 · 0 评论 -
【Functional Affordances】机器人manipulation
本文介绍了Robo-ABC框架,这是一个旨在提高机器人在操作任务中泛化能力的方法,特别是在面对未见过的物体时。Robo-ABC通过从互联网上的人类视频中提取可操作性记忆(包括接触点),使机器人能够通过检索视觉或语义上相似的物体来获取新的可操作性。该框架利用预训练的扩散模型自然地建立对应关系,从而实现跨不同物体类别的可操作性映射。Robo-ABC不需要手动注释、额外训练、部分分割、预编码知识或视角限制,就能以零样本的方式泛化操作跨类别物体。原创 2024-03-26 11:22:22 · 1330 阅读 · 0 评论 -
【强化学习抓取】偏机器人领域(略)
尽管双指抓取已经在文献中得到了广泛的研究,但多指机器人手的抓取仍然是一个开放的问题。类人手提供了执行灵巧任务的机会,例如物体重定向和使用工具(如锤子),但同时也带来了控制上的挑战,因为需要控制的自由度(DoFs)数量众多,使得寻找合适的操控策略变得困难。深度强化学习(DRL)的最新进展提供了设计高维控制策略的工具,而无需对环境和手部进行特定建模。然而,现有的无模型算法(如SAC或PPO)在学习多指操控任务时效率不高,因为在这些情况下,由于问题的高维性,环境的有效探索在策略优化的初始阶段是不可行的。原创 2024-03-12 11:32:16 · 1041 阅读 · 0 评论 -
【论文阅读】GraspNeRF: Multiview-based 6-DoF Grasp Detection
本文首次提出了一种基于多视图rgb的六自由度抓取检测网络GraspNeRF,该网络利用可推广的神经辐射场(NeRF)在杂波中实现与材料无关的物体抓取。我们的系统可以使用稀疏 RGB 输入执行零样本 NeRF 构造,并实时可靠地检测 6-DoF 抓取。原创 2024-01-26 16:13:21 · 1676 阅读 · 0 评论 -
【论文阅读】Grasp-Anything: Large-scale Grasp Dataset from Foundation Models
提出了“Grasp-Anything”,这是一个由基础模型合成的新的大规模抓取数据集,用于机器人抓取检测的新的大规模语言驱动数据集。Grasp-Anything 在多样性和数量上都很出色,拥有100万个带有文本描述的样本和超过300万个对象,超过了以前的数据集。根据经验,我们证明了在基于视觉的任务和真实世界的机器人实验中,抓取任何东西都能成功地促进零镜头抓取检测。原创 2024-01-26 11:01:48 · 1581 阅读 · 2 评论