LLM机器人
文章平均质量分 80
xwz小王子
机器人在读博士,研究方向具身智能、强化学习、多模态视听触感知与交互
展开
-
Science Robotics 综述揭示演化研究新范式,从机器人复活远古生物!
这种方法不仅能够复现已知的化石足迹,更重要的是,能够理解这些足迹形成的具体机制,为重建早期陆生脊椎动物的运动方式提供了重要线索。3D打印技术的精进让我们能够制作更精细的机器人部件,材料科学的发展为模拟生物组织提供了新的可能,而人工智能的应用则让我们能够更有效地探索形态空间。现有的机器人平台大多只能实现预设的形态变化,而真正的生物演化是一个开放式的、充满创新的过程。在这个循环中,古生物学提供了化石证据,生物学研究现生物种,生物启发机器人帮助验证具体的运动机制,而古生物启发机器人则探索了各种可能的演化路径。原创 2024-11-09 10:13:37 · 605 阅读 · 0 评论 -
Science Robotic 综述论文:通过机器人技术了解自我意识
在这两种情况下,机器人的体现使我们能够设计和测试关于自我本质的假设,关于它的发展、它在行为中的表现以及人类、动物和潜在的机器中自我的多样性。https://www.science.org/doi/10.1126/scirobotics.adn2733Science Robotic 近期发表的综述论文,回顾了解决自我主题(最小自我、扩展自我和自我障碍)的机器人学研究,并强调了通过在人工系统中构建自我组成部分来理解自我的未来方向和开放挑战。原创 2024-11-07 09:43:05 · 397 阅读 · 0 评论 -
机器人迈向ChatGPT时刻!清华团队首次发现具身智能Scaling Laws
他们发现了具身智能领域的 “圣杯”——data scaling laws,让机器人实现了真正的零样本泛化,可以无需任何微调就能泛化到全新的场景和物体。视觉编码器必须经过预训练和完整的微调,缺一不可扩大视觉编码器的规模能显著提升性能最令人意外的是:扩大扩散模型的规模却没能带来明显的性能提升,这一现象还值得深入研究。当环境数量足够多时,在单一环境中收集多个不同的操作物体的数据收益极其有限 —— 换句话说,每个环境只需要一个操作物体的数据就够了。Scaling Laws:从 ChatGPT 到机器人的制胜法则。原创 2024-11-01 12:16:23 · 650 阅读 · 0 评论 -
Advanced Functional Materials 人工皮肤—基于视触觉传感的三维重建技术:材料、方法和评估
例如,集成涂层和标记阵列的视触觉传感器可以实现纹理映射/重建和力感知,但是标记影响了重建精度(引发小的肿块)。图2 三维重建所需的光照方案2 硬件对3D重建的影响深度相机直接输出深度信息,但是成像距离限制了其在视触觉传感器应用的通用性。基于光流法的三维重建是密集标记物在深度标定的一次有趣的探索。但是,需求突出标记的特异性,让网络对相邻的标记生成高灵敏的边界感。图1 基于视触觉传感三维重建技术概览1 三维重建技术概览视触觉传感的载体是视觉,其三维重建技术与基于机器视觉的三维重建技术有相似之处但也有本质区别。原创 2024-10-30 08:51:23 · 761 阅读 · 0 评论 -
李飞飞团队新突破:低成本高泛化机器人训练法,零样本迁移成功率90%!
基于这一理念,研究团队在实验的收官阶段选择了一个未经预设的真实厨房环境,对ACDC的完整流程和自动化策略学习框架进行了全面的端到端测试。值得注意的是,与数字孪生不同,数字表亲并不追求在所有微小细节上都完美重建给定场景,而是专注于保留更高层次的细节,如物体间的空间关系和语义信息。2、随着测试环境与训练环境差异的增大,数字表亲训练的策略展现出更强的鲁棒性。同时,团队比较了数字表亲和数字孪生在策略训练方面的效果,既在原始环境中进行评估,也测试了在分布外设置中的表现,以验证数字表亲训练策略的稳健性和适应能力。原创 2024-10-29 16:31:38 · 1146 阅读 · 0 评论 -
International Journal of Robotics Research综述分享:深度解析模块化自重构机器人前世今生
为此,香港中文大学(深圳)的研究团队对近40年来的模块化自重构机器人硬件与设计进行了全面调研,提出了一套创新且统一的概念框架,用于深入理解模块化自重构机器人系统的硬件构成。同时,算法的进步大幅促进了硬件技术的发展,使得这一领域迅速成熟,吸引了越来越多的跨学科研究力量加入,推动了相关技术的快速推广和应用。随着技术的进步,分类方法日益复杂,导致了一定程度的混乱。随着技术的不断进步和多样化设计理念的兴起,这类机器人的种类日趋丰富,不同类别通过各自的形态与功能特点进行描述,致使该领域的分类体系日益模糊。原创 2024-10-28 11:02:12 · 1101 阅读 · 0 评论 -
香港大学联合上海AI LAB,提出首个人机交互一体化大模型
随后大模型内部的网络会将该特征分为不同的对象类型(Object)来进行学习,对象类型(Object)是通过预训练的模型获取的,基本能够涵盖人类指令中涉及的机器人交互对象。这种多模态推理在实际任务中的表现,证明了该方法能够有效将视觉感知和语言描述转换为实际的操作行为,如图6中,提示词为“帮助玩具坐在车上”,这里的“坐”和“放”体现了玩具的不同姿态,机器人需要敏锐的区分这里的动词,并实现不同的抓取和放置,从图中来看最终玩具很好的“坐在”车上,而不是被“放在”车上,体现出了RoboCodeX的有益效果。原创 2024-10-25 09:44:03 · 626 阅读 · 0 评论 -
CoRL 2024 | 波士顿动力自主强化学习助力移动操作持续提升
考虑一个复杂的高维系统,例如在开放空间中学习的具备移动能力的多足机器人,其可探索的空间比受限的桌面环境大得多。本文的方法主要包括以下几个核心组件:(1) 任务相关的自主性,用于收集具有有用学习信号的数据,(2) 通过整合先验知识与学习策略实现高效控制,(3) 结合高级视觉-文本语义与低级深度观测的灵活奖励设定。图 1:持续自主学习:本文使一个具备移动能力的多足机器人通过在现实世界中的练习,学习执行多种任务,如移动椅子(上图,左和右)、扶正簸箕(上图,中间)以及扫地(下图),并且几乎不需要人为干预。原创 2024-10-24 09:56:04 · 479 阅读 · 0 评论 -
NeurIPS 2024 麻省理工学院何恺明教授提出异构预训练Transformer,拟解决多个异构机器人操作技能学习
受到多模态数据学习的启发,HPT使用了特定于本体的分词器(stem)来对齐各种传感器输入,映射为固定数量的token,之后送入Transformer结构的共享主干(trunk),将token映射为共享表示并进行预训练。模拟环境如下图10(a)中,研究人员在闭环模拟中测试了下游任务的模型,并观察到使用HPT-B到HPTXL预训练模型,提到的任务成功率。HPT概念示意图HPT所要做的,就是找到一种共享的策略「语言」,能够对齐来自不同预训练的异质的本体感觉和视觉信息,将自己的信号映射到共享的潜在空间。原创 2024-10-23 20:13:03 · 598 阅读 · 0 评论 -
灵巧手抓取策略迁移:一手训练,多手应用
手无关的状态和动作表示:提出了一种通用的表示方法,这种表示结合了灵巧手间通用的关键点以及侧重刻画手和场景交互的几何特征,分别避免了灵巧手结构和几何差异对策略泛化带来的影响,使其能够在不同的机械手之间转移,无需针对每个机械手单独训练策略模型;图 2. 跨手迁移的抓取策略在不同灵巧手和物体上的泛化效果定量测试方面,该工作首先测试了方法中的主要设计对灵巧手抓取策略性能和泛化性的影响,包括两阶段分离的策略设计,通用的表征设计,基于 transform 的网络结构设计。原创 2024-10-22 09:49:57 · 620 阅读 · 0 评论 -
重磅分享:Science Robotics 2017-2023年封面论文研究总览
无论是完全自主还是与人类密切合作,机器人都变得无处不在。在太空和深海探索中,在手术室或驾驶汽车中,它们的影响力与日俱增。Science Robotics 期刊为最新的技术进步以及围绕机器人关键技术的社会、道德和政策问题提供了一个高质量学术平台。它是多学科的,涵盖了机器人技术的传统学科,以及先进材料和仿生设计等新兴趋势。它涵盖了从超大型系统到微/纳米机器人;其范围很广,既涉及理论进展,也涉及实际应用。在此总览2017-2023年Science Robotics 封面论文情况。1、2023年12期封面论文12月原创 2024-10-22 09:46:28 · 672 阅读 · 0 评论 -
一种用于机械手自适应抓取控制的紧凑型指尖形视触觉传感器
在完成预抓取后,稳定性调整控制器接管抓取过程,实时监控物体的运动状态,尤其是物体可能的滑动情况。对于较重或刚性物体,预抓取阶段的接触强度可能不足以支撑整个抓取过程,因此需要根据标记位移的变化,动态调整抓取力度,防止物体滑落。为此,本文提出了一种紧凑型指尖形状的视觉-触觉传感器(FVTS),旨在通过高精度的触觉反馈,帮助机器人灵活调整抓取力度,实现对不同物体的自适应抓取。该策略包括预抓取控制器和稳定性调整控制器,分别应对物体的初始接触和稳定抓取阶段,确保机械手在处理各种物体时能够提供非侵入性、稳定的抓取。原创 2024-10-11 09:27:44 · 890 阅读 · 0 评论 -
Science Advances 具有高灵敏度远程感知功能的多感受器皮肤
图6:展示了多感受器皮肤在远程感知和触觉感知中的应用。读后感这篇论文提出了一种基于多感受器皮肤的新型远程感知和触觉感知系统,结合了纳米材料的结构性掺杂和深度学习算法,突破了传统传感器在感知距离、灵敏度和功能上的限制。图5F通过对比不同通道的输入,展示了识别精度随着通道数量的增加而提升,图5G则展示了四通道输入下的混淆矩阵,表明系统最终实现了99.56%的分类准确率。图1A介绍了人类大脑功能区域的分布,图1B展示了鸭嘴兽通过双重感受器(机械感受器和电感受器)感知环境的原理,作为系统设计的仿生灵感。原创 2024-10-09 10:23:39 · 772 阅读 · 0 评论 -
Science Robotic 内在触觉实现直观的物理人机交互
技术方案:使用了一种基于动量的监控方法,通过集成的力-扭矩传感器来估计外部作用力和扭矩。通过实验验证了该技术在不同机器人配置和用户视角下的有效性,实现了对数字和字母的高准确率识别。展示了所谓的“虚拟按钮”概念,允许用户在机器人表面任意位置创建可编程的交互按钮,用于触发预设的任务或功能。论文提出的技术为机器人与人类之间的直观、灵活的交互提供了新的可能性,并为未来人机协作领域开辟了新的研究方向。机器人可以识别字符并做出反应,例如在其表面绘制的数字,以及虚拟按钮或滑块,为用户提供了一种与机器人交互的直观方式。原创 2024-09-21 16:52:26 · 376 阅读 · 0 评论 -
Science Robotics 在小动物模型中实现渐进和可逆主动脉收缩的软机器人平台
然而,这些研究未能同时控制疾病的进展和逆转,阻碍了其临床意义。在本研究中,研究人员介绍了如何利用软机器人技术克服了其他技术的缺点,开发高度可控的主动脉束带慢性小动物模型,并利用有创血液动力学监测来评估急性期心脏功能和 AS 的临床指标。与之前的研究不同,本文在一项慢性研究中使用磁共振成像(MRI)来观察主动脉束带造成的主动脉血流,并描述主动脉收缩的程度、心脏重塑和逆转。n.s.,无显著性。借助磁共振成像技术,他们展示了主动脉束带绑扎和束带松弛造成的压力过载引起的血流动力学变化,再现了心脏疾病的进展和逆转。原创 2024-09-12 15:27:22 · 1240 阅读 · 0 评论 -
Nature Communications 多模触觉-视觉融合机器人:用于灵巧机器人做家务
值得注意的是,触觉传感器具有超灵敏(0.05 mm/s)和超快(4 ms)的滑动感知,这对于灵活可靠的抓取控制是必不可少的,以避免压碎易碎物体或掉落光滑的物体。一系列具有快速滑动反馈控制的智能抓取策略和触觉-视觉融合识别策略能确保机器人灵巧的抓取和准确识别日常物体,处理各种具有挑战性的任务,例如抓取装有液体的纸杯。然而,目前的感知技术仍然不能满足机器人在家庭任务/环境中的需求,特别是在多感官整合和融合、快速反应能力和高灵敏度感知方面面临着巨大的挑战。图5 基于触觉-视觉融合的物体分类和桌面清理识别策略。原创 2024-09-10 16:44:30 · 601 阅读 · 0 评论 -
IEEE TRO 人形机器人遥操作的综述
稳定器通常基于不同的稳定性标准,如零力矩点(ZMP)或动态捕获点(DCM),来评估机器人的稳定性,并相应地调整机器人的运动。全身控制层(Whole-Body Control Layer, WBC):WBC通过优化问题来计算机器人的关节扭矩,同时考虑机器人的稳定性和任务执行的需求。这包括了对机器人全身运动的协调控制,以实现平衡和灵活性。重定向与规划(Retargeting and Planning):在将用户的动作转换为机器人的动作时,需要考虑机器人的物理限制和环境条件,以避免导致不稳定或危险的动作。原创 2024-09-06 14:30:11 · 1137 阅读 · 0 评论 -
Nature Communications:解码人类触觉感知与运动神经控制机理,用仿生手重现类人触觉感知与抓握
研究还显示,该仿生手系统在触觉信号解码和神经运动控制上的表现与真实生物系统的误差低于10%,为未来仿生手和假肢手的开发提供了关键的数据支持。在本研究中,研究团队提出了一种创新性的方法,结合人体神经传导实验、人手数字孪生模型和神经动态模型,成功实现了对人手触觉感知信号和运动神经信号的预测和解码。例如,在对比实验中,我们的模型成功模拟了在与不同形状(如圆柱形和球形)物体接触时,神经信号的变化情况,并与真实的生物神经信号进行比较。此外,研究还发现,触觉信号的解码不仅与接触物体的形状有关,还与物体的大小密切相关。原创 2024-09-03 10:40:16 · 849 阅读 · 0 评论 -
突破复杂运动控制:自适应脑机接口实时神经反馈优化
这些挑战主要集中在BCI解码器的训练上,传统的解码器训练依赖于监督学习,需要明确的标签数据,这往往要求用户在受控环境中进行特定的动作。在两种BCI范式中,cMTP解码器的输出与控制解码器的输出结合,以创建训练数据。为评估该方法的效率,研究团队采用aaBCI框架(基于cMTP解码器输出的估算标签)训练的控制解码器,与基于监督学习(使用真实标签)训练的解码器进行比较。该aaBCI模块负责检测连续时间内的运动任务表现的神经相关性(cMTP),以及基于cMTP解码器的输出和控制解码器的输出估算控制解码器的标签。原创 2024-08-28 08:13:17 · 703 阅读 · 0 评论 -
加州大学圣地亚哥分校 沉浸式遥操作机器人系统
此外,低成本但高效的Eccentric Rotating Mass(ERM)执行器的使用,使得触觉反馈设备的实现更加经济实惠,进一步推动了该技术的普及和应用。为了探究触觉反馈装置对遥操作性能的实际影响,开发人员设计并实施了一项用户研究,并邀请了多位未经过专业培训的操作员参与,通过对比有无触觉反馈条件下的操作表现,研究人员发现触觉反馈显著提高了操作的成功率和效率。特别是在部分视线受阻的情况下,触觉反馈为操作员提供了额外的感知信息,帮助他们更准确地判断机器人与环境的交互状态,从而实现了更加精确和稳定的控制。原创 2024-08-24 20:57:36 · 984 阅读 · 1 评论 -
Science Robotics封面 | 当机器人学会用‘快照‘导航,轻重量小内存实现‘长途跋涉‘
这些复杂的计算需要强大的处理器和大量的内存,远远超出了微型机器人的承载能力和能源预算。正如自然界中的小蚂蚁能够在广袤的沙漠中找到回家的路,这些微型"小飞侠"也可能在不久的将来,凭借着简单而高效的导航策略,在复杂的人类世界中自主高效地完成各类任务。特别是在一些GPS信号受限的场景,如密集的城市环境、洞穴等极端环境,或者GPS信号被干扰的情况下,这种自主导航能力将发挥巨大作用。同时,在一些需要快速部署的场景,如搜救行动,或者在温室、仓库等受控环境中,这种无需额外基础设施的导航方法也能大大降低成本和部署时间。原创 2024-08-15 14:03:03 · 916 阅读 · 3 评论 -
上翘机头设计确保了机器人在与杆子正面碰撞后,平稳从水平飞行状态重新调整为垂直飞行状态,进而用翅膀紧紧抱住杆子,实现稳定的栖息
前不久,来自瑞士洛桑联邦理工学院智能系统实验室、生物机器人实验室以及美国纽约州立大学石溪分校Soft Flyers小组的研究人员,受动物和蝙蝠肢体在抓握和栖息树木方面的适应性启发,精心设计了一种两用机翼,这种机翼不仅在空中滑翔时表现出色,还可使有翼机器人能够依靠被动机翼变形,在树木、建筑脚手架、电塔、路灯、电线杆等多种类型的垂直杆上实现紧急降落。相反,它巧妙地选择了利用现有无人机元素的双重用途策略,其中就包括使用前肢(即翅膀)紧紧抱住杆子,并保持重心靠近杆子,以最小化后仰效应,确保了栖息的稳定性。原创 2024-08-07 14:50:32 · 860 阅读 · 0 评论 -
Science Robotics 封面论文:美国宇航局喷气推进实验室开发了自主蛇形机器人,用于冰雪世界探索
各种各样的测试地形配置凸显了机器人的适应性,这是通过基于螺杆和形状的运动相结合实现的。基于螺钉的运动允许对领导者-跟随者步态进行闭环路径跟踪,并且基于形状的运动被证明是一种有用的策略,可以使机器人摆脱可能意味着传统移动系统(如漫游车)终结的情况。此外,当螺旋运动被证明不太可靠时,基于形状的运动被证明是一种有效的导航松散地形的方法,例如粉雪或细沙。形状和螺钉控制包括一组控制器,这些控制器接收所需的路径、所需的控制器和偏差信息,并输出所需的接头角度和螺钉速度。不同的步态需要不同的控制方案。原创 2024-08-05 16:35:28 · 490 阅读 · 0 评论 -
清华大学孙富春教授团队联合中科院自动化所、北京航空航天大学共同开发“数字孪生驱动”的机器人手机装配系统
另外,在传统深度架构的基础上,设计了基于数字孪生驱动奖励函数,该函数由机械手引导的FPC运动部分与数字孪生中FPC的目标位置之间的距离和旋转差来度量,这有助于更精确地测量末端机械臂末端和FPC的位置误差,从未获得更高的装配效率。(b4)FPC连接器的增强位置及其在数字孪生中的理想位置之间的关系。(2)建立了数字孪生驱动的奖励函数,该奖励函数根据FPC连接器与其在数字孪生中的理想位置之间的距离和旋转差来测量,这使得深度学习模型可以同时学习物理空间和数字孪生空间中FPC位置测量所引导的动作。原创 2024-07-30 09:44:32 · 831 阅读 · 0 评论 -
Biomimetics 综述分享:肌电假肢手的交互操作控制综述
基于上述回顾,我们提出了两个未来研究方向可能面临的挑战和机遇,旨在克服当前肌电控制的局限性,即功能增强型假肢手和减轻用户负担。近些年假肢灵巧手成为了热点研究方向。近期,期刊Biomimetics(JCR Q1)发表了“面向肌电假肢手的交互操作控制”的综述文章,探讨了致力于复杂的日常操作场景开发肌电控制方案,分析了肌电假肢手操作能力发展中可能遇到的挑战和机遇。本研究全面调研了肌电假肢手操作的最新进展,并对当前假肢手操作面临的挑战和未来的研究方向进行了讨论,旨在为肌电控制领域的发展提供新的视角。原创 2024-07-24 09:37:29 · 306 阅读 · 0 评论 -
Meta,CMU 和 ETU Zurich联合研究:仿真人形机器人的灵巧抓取与物体操作
作者的方法仅使用了简单的奖励、状态和物体表示法,在不同的物体和轨迹上显示出良好的可扩展性。作者将发布代码和模型。由于真实物体轨迹数量有限(无论是从MoCap还是动画师那里收集的),作者设计了一个3D物体轨迹生成器,可以创建具有不同速度和方向的轨迹,提高了对未见轨迹的泛化能力。对于较大的物体,作者的策略会采用双手和非夹持传输策略,这种行为是从GRAB中利用双手进行物体操作的预抓取中学习到的。如图 1 所示,给定一个物体网格,作者的目标是控制一个配备两只灵巧双手的仿真人形机器人拿起物体,并沿着合理的轨迹移动。原创 2024-07-19 09:16:51 · 779 阅读 · 0 评论 -
特斯拉的人形机器人最新展示,穿戴遥操作示教的机器人学习!
在机器人领域,特斯拉的人形机器人一直备受关注。2021 年,在「特斯拉 AI 日」上,马斯克发布了特斯拉的通用机器人计划,并用图片展示了人形机器人 Tesla Bot 的大致形态。在特斯拉最新发布的视频中,我们可以发现特斯拉利用一些技术方法改进了人形机器人的动作和控制,包括电机扭矩控制、环境发现与记忆、基于人类演示训练机器人。特斯拉的人形机器人具备与人类相似的身体结构。目前,特斯拉已经展示了人形机器人的基本能力,包括行走和抓取物体,该公司将对该机器人做更多技术改进,预计在不远的将来投入量产。原创 2024-07-10 14:43:22 · 599 阅读 · 0 评论 -
ICRA 2024 慕尼黑工业大学研究人员展示最新版GARMI辅助机器人,未来应用于养老院
经过持续不断的优化与更新,GARMI的功能日益完善,不仅涵盖了丰富多样的实用功能,其智能化水平也迈上了新的台阶。此外,GARMI新增的触觉系统显著增强了与家人朋友视频交流时的情感传递,让老年人在家中也能深切感受到孩子们的陪伴和关怀,即便彼此相隔千里或忙于各自的工作。其中,密切关注机器人与物体之间的距离,以及精准评估机器人手臂及其各关节的移动性,是这项技术的核心挑战。在GARMI的操作与使用环节,ChatGPT作为技术与人类之间的桥梁,扮演了一个类似翻译者的角色,帮助人类与机器人进行无缝沟通。原创 2024-05-23 08:42:21 · 1052 阅读 · 1 评论 -
ICRA 2024: NVIDIA 联合多伦多大学、加州大学伯克利分校、苏黎世联邦理工学院等研究人员开发了精细操作的手术机器人
NVIDIA 联合多伦多大学、加州大学伯克利分校、苏黎世联邦理工学院和佐治亚理工学院的研究人员开发了 ORBIT-Surgical,一个训练机器人的模拟框架,可以提高手术团队的技能,同时减少外科医生的认知负担。该团队的概念验证表明,将模拟和真实数据相结合显著提高了人工智能模型从图像中分割手术针的准确性,有助于减少训练此类模型时对大型、昂贵的现实数据集的需求。受腹腔镜手术(又称微创手术)训练课程的启发,它支持十多种操作,比如抓住像针头这样的小物体,从一只手臂传递到另一只手臂,并高精度地放置它们。原创 2024-05-19 10:08:16 · 476 阅读 · 0 评论 -
Google和普林斯顿大学联合发表CoRL论文:寻求帮助的机器人-大型语言模型规划者的不确定性对齐
文章介绍了一种名为KnowNo 的框架,用于测量和对齐基于大型语言模型(LLM)的规划器的不确定性,这样他们就知道什么时候它们不知道,并在需要的时候寻求帮助。通过各种模拟和真实机器人设置的实验,涉及不同模糊模式的任务(例如,从空间到数字的不确定性,从人类偏好到Winograd 模式)表明,KNOWNO在提高效率和自主性方面优于现代基线(可能涉及集成或广泛的提示调整),同时提供正式保证。此外,KNOWNO的目标成功率保证机制使其不受特定LLM的影响,因此可以在不同的LLM 上实现一致的结果。原创 2024-05-18 08:51:26 · 1003 阅读 · 0 评论 -
震撼!中国人形机器人学会跑酷,跳上40公分高台,仅需小成本运转,深度学习技术是关键
进行了大量的模拟和现实实验,结果表明,跑酷策略使低成本四足机器人能够自主选择和执行适当的跑酷技能,仅使用机载计算、机载视觉传感和机载电源即可穿越开放世界中具有挑战性的环境,包括爬高 0.40m(1.53x 机器人高度)的障碍物,跳过 0.60m(1.5x 机器人长度)的大间隙,在 0.2m(0.76x 机器人高度)的低障碍物下爬行,通过倾斜挤过 0.28m 的细缝(小于机器人宽度),并且可以一直跑步前行。论文地址:https://arxiv.org/abs/2309.05665。原创 2024-05-13 09:26:24 · 279 阅读 · 0 评论 -
UC伯克利的研究人员提出了一种全新的AI智能体,可以通过对未来进行多模态世界建模来学习理解语言
在Messenger游戏环境中,研究人员测试了智能体是如何从较长且更复杂的文本中学习的,这需要在文本和视觉观察之间进行多跳推理。与仅用语言预测动作的传统智能体不同,Dynalang通过使用过去的语言来预测未来的语言、视频和奖励,从而获得丰富的语言理解。除了在环境中的在线交互中学习外,Dynalang还可以在没有动作或奖励的情况下在文本、视频或两者的数据集上进行预训练。就像语言会影响智能体对所见事物的预测一样,智能体观察到的事物也会影响它期望听到的语言(例如,关于所见事物的真实陈述)。原创 2024-05-06 21:10:18 · 580 阅读 · 0 评论 -
北京大学创新推出ManipLLM黑科技 | 大幅提升机器人操作的鲁棒性与智能性
尽管模型在模拟器中表现良好,但在实际环境中,机器人通常会遇到更多独特的情况,即环境或难以配置的设备,这可能与模拟器模拟的情况显著不同,导致模拟到实际(sim-to-real)差距。因此,为了促进位姿预测,在任务Mask语言模型(MLM)中,将输入文本提示中的坐标或方向向量的值进行屏蔽,并促进模型填充缺失的字符,如图2中第三条提示所示。对于柱面部分,即抽屉,在可移动部分的所有点上操作都可以促进运动,因此,抽屉的可动部分的概率图在力场图上都是1。对于旋转部分,力场图反映了操纵可能性的区域,即远离轴的区域。原创 2024-04-04 19:02:23 · 1320 阅读 · 1 评论 -
“大模型+机器人”的现状和未来,重磅综述报告来了!
实验表明,CLIP-ASAP能够学习复杂的长期技能,如烹饪、家政等,且具有很强的泛化能力,能够根据不同的指令组合技能。将基础模型引入机器人学,有望从感知、决策和控制等方面提升机器人系统的性能,推动机器人学的发展。未来,机器人学和人工智能领域的研究者需要携手合作,进一步挖掘基础模型的潜力,并解决其落地部署所面临的挑战,推动服务机器人、工业机器人和特种机器人等领域的发展,造福人类社会。介绍基础模型在机器人感知中的应用、基础模型在机器人决策与规划中的应用、基础模型在机器人控制中的应用,总结全文并展望未来。原创 2024-03-28 09:02:23 · 750 阅读 · 3 评论 -
谷歌具身智能最新进展:RT-H 机器人通用灵巧抓取
接着,利用这些观察、任务以及推断出的语言动作,RT-H 为每一步骤预测相应的行动,语言动作在此过程中提供额外的上下文,帮助更准确地预测具体行动(图 1 紫色区域)。他们还发现,对语言动作进行修正能够在同样的任务上达到接近完美的成功率,展示了学习到的语言动作的灵活性和情境适应性。举例来说,给定一项任务,如「盖上开心果罐的盖子」和场景图像,RT-H 会利用视觉语言模型(VLM)预测语言动作(motion),如「向前移动手臂」和「向右旋转手臂」,然后根据这些语言动作,预测机器人的行动(action)。原创 2024-03-21 09:06:41 · 985 阅读 · 0 评论 -
Figure 01掀起了具身智能的崭新篇章
2)按照他公布的policy network的控制频率来看,不太像是一个RT系列的那种通用大模型,RT系列随着不断地scale up能力不断提升,而推理速度和控制频率随着模型变大牺牲了很多,其最快的控制频率也只做到3HZ,因此从这方面推测,Figure01的policy network大概率是一些被封装成API可被上层多模态大模型调用的小的端到端的策略网络,能够实现一小类任务和在一类物体之间的泛化,并由他们组建成为了一个庞大的技能库来供上层的多模态大模型调用。原创 2024-03-16 18:28:09 · 1080 阅读 · 0 评论 -
VIMA:多模态提示的通用机器人操纵
对于全景图片,首先利用微调后的Masked R-CNN抽取单个对象,然后对每个对象的有界box和裁剪图片进行编码,分别使用了有界box编码器和ViT。VIMA是一个机器人领域的通用智能体,基于多模态提示学习的transformer架构。确切的说,多模态提示被定义为任意交叉的文本与图片的有序序列,可见图1所示。为了学习一个高效的多任务机器人策略,设计了一个多任务编码-解码架构和以对象为中心的智能体,可见图3所示。如图2所示,作者们设计了4级评估协议,系统探索了智能体的泛化能力。图1 任务说明的多模态提示。原创 2024-03-04 09:37:46 · 1061 阅读 · 0 评论 -
多模态大语言模型的ai反馈增强机器人操作研究
CriticGPT RM给予的奖励更加合理,在成功和失败的轨迹之间有明显的回报差距。该研究结果表明,利用CriticGPT的反馈可以有效地指导政策学习任务的完成,预期随着数据集的不断扩充,CriticGPT的能力将得到进一步加强。分析: CriticGPT RM给予较高奖励的轨迹与成功完成的轨迹的回报之间存在明显的差距,能够更好地区分成功和失败的轨迹。分析: CriticGPT RM更加目标导向,能够更快地按照目标完成任务,而基于专家奖励的模型往往给出许多小的奖励来引导任务完成,可能会减慢任务的完成速度。原创 2024-02-28 08:55:04 · 652 阅读 · 0 评论 -
斯坦福大学为机器人操作模仿学习设计了示教新范式
学习到的策略与硬件无关,可在多个机器人平台上部署。有了这些功能,UMI 框架就能释放新的机器人操纵能力,只需改变每个任务的训练数据,就能实现零样本通用动态、双臂、精确和长序列行为。通过全面的真实世界实验证明了 UMI 的多功能性和有效性,在这些实验中,通过 UMI 零样本学习到的策略在不同的人类演示训练中可泛化到新的环境和物体。为了获取可部署策略的动作数据,UMI 需要捕捉人类快速运动下的精确机器人动作④、抓取宽度的微调⑤,并自动检查每个演示在特定的机器人运动学约束条件⑥下是否有效。(2) 杯子摆放 ☕。原创 2024-02-26 09:39:25 · 1006 阅读 · 0 评论 -
RobotGPT:利用ChatGPT的机器人操作学习框架,三星电子研究院与张建伟院士、孙富春教授、方斌教授合作发表RAL论文
决策机器人将基于提供的提示生成相应的可执行代码。依靠ChatGPT执行一般的机器人任务是不可靠的,因为ChatGPT的输出是随机的,这扩大了机器人工作的风险。相比之下,本文的RobotGPT模型在所有级别的任务中都显示出稳健性,保持良好的表现,在模拟中平均可以达到0.915的成功率。在真实世界的实验中,RobotGPT可以达到0.86的成功率,这是在完全使用模拟数据进行训练的情况下达到的。在实验中,团队构建了一个度量任务难度的指标,并观察到随着任务难度的增加,ChatGPT执行任务的成功率降低。原创 2024-02-24 09:01:40 · 1485 阅读 · 2 评论
分享