ICML 2024 多视角融合驱动的通用具身操作算法SAM-E，为机器人学习复杂操作给出了可行解决方案

最新推荐文章于 2024-11-20 14:30:39 发布

xwz小王子

最新推荐文章于 2024-11-20 14:30:39 发布

阅读量1.2k

点赞数 18

分类专栏：具身智能触觉感知与操作文章标签：算法机器人学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44887311/article/details/139228060

版权

当我们拿起一个机械手表时，从正面会看到表盘和指针，从侧面会看到表冠和表链，打开手表背面会看到复杂的齿轮和机芯。每个视角都提供了不同的信息，将这些信息综合起来才能理解操作对象的整体三维。

想让机器人在现实生活中学会执行复杂任务，首先需要使机器人理解操作对象和被操作对象的属性，以及相应的三维操作空间，包括物体位置、形状、物体之间的遮挡关系，以及对象与环境的关系等。

其次，机器人需要理解自然语言指令，对未来动作进行长期规划和高效执行。使机器人具备从环境感知到动作预测的能力是具有挑战性的。

近期，中国电信人工智能研究院（TeleAI）李学龙教授团队联合上海人工智能实验室、清华大学等单位，模拟人「感知—记忆—思维—想象」的认知过程，提出了多视角融合驱动的通用具身操作算法，为机器人学习复杂操作给出了可行解决方案，论文被国际机器学习大会ICML 2024录用，为构建通用三维具身策略奠定了基础。

近年来，视觉基础模型对图像的理解能力获得了飞速发展。然而，三维空间的理解还存在许多挑战。能否利用视觉大模型帮助具身智能体理解三维操作场景，使其在三维空间中完成各种复杂的操作任务呢？受「感知—记忆—思维—想象」的认知过程启发，论文提出了全新的基于视觉分割模型Segment Anything（SAM）的具身基座模型SAM-E。

首先，SAM- E具有强大可提示（promptable）「感知」能力，将SAM特有的分割结构应用在语言指令的具身任务中，通过解析文本指令使模型关注到场景中的操作物体。

随后，设计一种多视角Transformer，对深度特征、图像特征与指令特征进行融合与对齐，实现对象「记忆」与操作「思考」，以此来理解机械

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。