大模型
文章平均质量分 90
AIRoobt
AI人工智能、机器人、具身智能、大模型、机器学习、深度学习等技术分享。
展开
-
论文PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large Multimodal Models解读(加州大学)
我们介绍了PhyGrasp,一个多模态大型模型,它利用来自两个模态的输入:自然语言和3D点云,通过一个桥接模块无缝集成。语言模态展现出对各种物理属性对抓取影响的稳健推理能力,而3D模态则理解物体的形状和部分。凭借这两种能力,PhyGrasp能够准确地评估物体部分的物理属性,并确定最佳的抓取姿势。原创 2024-03-10 11:48:46 · 1034 阅读 · 1 评论 -
论文Blind Robotic Grasp Stability Estimation Based on Tactile Measurements and Natural Language Prom解读
我们设计并训练了一种神经网络模块的组合,该组合根据触觉传感器测量值和标识物体的自然语言提示预测机器抓取成功率。我们使用配备了两个DIGIT传感器的Franka Emika Panda机械臂进行抓取,并使用chatGPT生成语言描述。我们的近期目标是利用这种方法提高抓取稳定性估计器的准确性。这项工作的长期目标是利用基于语言的上下文来增强触觉驱动的机器人控制,即可能无法从视觉中可靠推断出的与任务相关的信息。原创 2024-03-09 20:30:22 · 829 阅读 · 0 评论 -
论文InstructPart: Affordance-based Part Segmentation from Language Instruction解读(卡耐基梅隆大学)
我们引入了一个全面的数据库,该数据库包括图像观察、任务描述以及精确的对象-部分交互注释,并辅以部分分割掩模。我们使用这个基准测试对常见的预训练 VLMs 进行了评估,揭示了这些模型在理解和执行日常情境中的部分级任务方面的性能。原创 2024-03-09 20:23:07 · 966 阅读 · 0 评论