扩散策略
文章平均质量分 82
xwz小王子
机器人在读博士,研究方向具身智能、强化学习、多模态视听触感知与交互
展开
-
CoRL2024 聚焦「视听触感官」协同配合的具身智能操作
本文借鉴人类的基于阶段理解的多感官感知过程,提出了一个由阶段引导的动态多传感器融合框架 MS-Bot,旨在基于由粗到细粒度的任务阶段理解动态地关注具有更高质量的模态数据,从而更好地应对模态时变性的挑战,完成需要多种传感器的精细操纵任务。我们还放松了对阶段边界附近的样本上的相邻阶段分数惩罚,从而实现软约束效果,得到更平滑的阶段预测。如图 4 所示,MS-Bot 准确地预测了任务阶段的变化,并且得益于模型中由粗到细粒度的任务阶段理解,三个模态的注意力分数保持相对稳定,表现出明显的阶段间变化和较小的阶段内调整。原创 2024-11-09 10:16:42 · 437 阅读 · 0 评论 -
Nature正刊:西湖大学姜汉卿教授与John A. Rogers-黄永刚-解兆谦联合开发新型的多模态触觉反馈智能穿戴装置
近日,美国西北大学John A. Rogers/黄永刚&西湖大学姜汉卿&大连理工大学解兆谦联合团队提出了一个微型化的机电结构,当与皮肤结合时,能够作为一个弹性储能元件,且支持双稳态,自感知变形模式,实现了压力、剪切力、振动、动态、静态的无线低功耗感知的系统级高度集成,文章于2024年11月6日发表于《Nature》正刊上。一个无线的、皮肤舒适的触觉界面,集成了这些双稳态传感器阵列,作为一个高密度通道,能够呈现来自智能手机的3D扫描和惯性传感器的输入。图2 传感器的机械特性和皮肤在维持双稳定性中的作用。原创 2024-11-08 10:21:16 · 176 阅读 · 0 评论 -
NeurIPS 2024 | 机器人操纵世界模型来了,成功率超过谷歌RT-1 26.6%
针对该问题,来自中山大学和华为诺亚等单位的研究团队提出了一种全新的原语驱动的路径点感知世界模型,借助 VLMs 作为机器人的大脑,理解任务之间的动作关联性,并通过 “世界模型” 获取对未来动作的表征,从而更好地帮助机器人学习和决策。这样做有几个好处:它使得模型可以更好的学习任务与动作之间的内在关联性,减少其他干扰因素的影响,并更好地捕捉不同任务之间的相似性(例如,拧瓶盖和拧螺丝的动作是相似的,拿杯子和搭积木都有一个抓住物体的过程),从而使得模型可以在多任务数据下学习到可迁移的知识。原创 2024-11-05 20:56:08 · 801 阅读 · 0 评论 -
机器人神经场的全面盘点:导航/自动驾驶/姿态估计应用一览无余
神经场已经成为计算机视觉和机器人技术中3D场景表示的一种变革性方法,能够从姿势的2D数据中准确推断几何、3D语义和动力学。利用可微分渲染,神经场包括连续隐式和显式神经表示,实现了高保真3D重建、多模态传感器数据的集成和新视点的生成。这项调查探讨了它们在机器人技术中的应用,强调了它们在增强感知、规划和控制方面的潜力。它们的紧凑性、内存效率和可微性,以及与基础模型和生成模型的无缝集成,使其成为实时应用的理想选择,提高了机器人的适应性和决策能力。本文基于200多篇论文,对机器人中的神经场进行了全面的回顾,对各个领原创 2024-11-03 19:51:31 · 948 阅读 · 0 评论 -
机器人迈向ChatGPT时刻!清华团队首次发现具身智能Scaling Laws
他们发现了具身智能领域的 “圣杯”——data scaling laws,让机器人实现了真正的零样本泛化,可以无需任何微调就能泛化到全新的场景和物体。视觉编码器必须经过预训练和完整的微调,缺一不可扩大视觉编码器的规模能显著提升性能最令人意外的是:扩大扩散模型的规模却没能带来明显的性能提升,这一现象还值得深入研究。当环境数量足够多时,在单一环境中收集多个不同的操作物体的数据收益极其有限 —— 换句话说,每个环境只需要一个操作物体的数据就够了。Scaling Laws:从 ChatGPT 到机器人的制胜法则。原创 2024-11-01 12:16:23 · 650 阅读 · 0 评论 -
Nature Electronics 用于语音识别的液体声传感器,基于悬浮在载液的钕-铁-硼磁性纳米颗粒
我们的工作受到鲸鱼额头中的脂肪组织的启发,”该论文的通讯作者陈俊(Jun Chen音译)说,“脂肪组织集中并调节用于回声定位的发声,将其声学特性与周围的水体相匹配,从而使声音以最小的能量损失传播。”在他们最近的研究中,陈和他的同事着手开发一种很有前景的新型传感系统,该系统可以模拟鲸鱼额头中脂肪器官的功能。“人工智能在我们的感测系统中发挥着关键作用,特别是支持语音识别,”陈解释说,“得益于液态声学传感器捕获的低噪声信号,该系统在深度学习算法的支持下实现了高识别率。原创 2024-10-31 10:57:38 · 372 阅读 · 0 评论 -
斯坦福大学李飞飞教授团队最新研究:聚焦机器人抓取交互,让机器人操作真正地适应各种环境
此外,该实验设计还引入了回退机制,以应对阶段间的重新规划,例如当最后一个阶段的任何子目标约束不再满足时(如在倒茶任务中杯子从夹具中取出),系统会回退到一个满足路径约束的先前阶段。基于此,研究人员提出了一个问题:如何表示机器人操作中的约束,使其能够广泛应用于各种任务,具有可扩展性,并能够通过现成的求解器进行实时优化,以适应复杂的操作行为?最后,当前的公式假设每个任务的阶段序列是固定的,重新规划不同的骨架需要在高频下运行关键点提议和VLM,这带来了相当大的计算挑战。原创 2024-10-21 11:03:00 · 1001 阅读 · 0 评论 -
Chemical Engineering Journal 面向空间舱外智能操作的受皮肤启发的多模态触觉传感器
结合BMLTS和深度学习的仿生智能感知系统(BIPS)可以实现基于摩擦电的对Al、POM、玻璃、纸张、纤维等5种材料的实时感知,实现对数字、字母、汉字书写和记录的智能识别。但是对于宇航员来说,但对于在太空或月球上的宇航员来说,他们佩戴的太空手套通常是由非常厚的多层结构组成来提高密封性,以确保宇航员的安全,但却阻碍了有效的触觉反馈,特别是指尖的触觉反馈,导致手的灵巧操作受到限制,严重阻碍了宇航员在舱外活动的灵活性。整个过程分为接触前(①)、开始接触(②)、接触后(③)、开始分离(④)、接触后(⑤)五个步骤。原创 2024-10-16 10:12:44 · 775 阅读 · 0 评论 -
CoRL 2024 机器人抓取学习 GraspSplats:使用 3D 特征展开进行高效操作
机器人对物体部分进行高效且零样本抓取的能力对于实际应用至关重要,并且随着视觉语言模型(VLMs)的最新进展而变得越来越普遍。为了弥补支持这种能力的表示中的二维到三维差距,现有方法依赖于通过可微渲染或基于点的投影方法的神经场(NeRFs)。然而,我们证明NeRFs由于其隐式性而不适用于场景变化,而基于点的方法在没有基于渲染的优化的情况下,对于部件定位不准确。为了解决这些问题,我们提出了GraspSplats。通过使用深度监督和一种新颖的参考特征计算方法,GraspSplats在不到60秒的时间内生成高质量的场原创 2024-10-13 14:17:11 · 578 阅读 · 0 评论 -
剑桥Ð研究综述:NeRF在机器人技术中的应用
精准的三维环境表示一直是计算机视觉和机器人领域的一个长期目标。最近出现的神经隐式表示为该领域带来了革命性的创新,因为隐式表示能够实现多种功能。其中,神经辐射场(NeRF)由于其巨大的表征优势,如简化的数学模型、紧凑的环境存储和连续的场景表示,引发了一种趋势。除了计算机视觉,NeRF在机器人领域也显示出巨大的潜力。因此,本综述是为了全面了解机器人领域的NeRF。通过探索NeRF的优势和局限性,以及它目前的应用和未来的潜力,我们希望能阐明这一有前景的研究领域。从NeRF如何进入机器人领域的角度来看,我们的调查分原创 2024-10-08 11:25:38 · 690 阅读 · 0 评论 -
Nat. Commun.:飞秒激光书写受蚂蚁启发的可重构微型机器人集体
i 如果蚂蚁微型机器人的轴线与磁方向之间存在角度,则会在蚂蚁微型机器人上产生磁扭矩,从而引起蚂蚁微型机器人的旋转运动,以沿着磁场的方向排列。随着微纳制造技术和材料科学的快速发展,基于刺激响应材料的微型机器人得到了发展,它们表现出优异的响应变形特性、高度的环境适应性和强大的功能性。然而,从微型机器人的数量来看,当前的研究通常集中在单个可变形的微型机器人上。尽管可以可控地实现单个微型机器人的可逆、动态和快速的变形或运动,但是多个可变形微型机器人之间稳定、可逆的连接以形成集体以及它们的运动和应用尚未得到验证。原创 2024-10-07 19:47:17 · 1257 阅读 · 0 评论 -
TPAMI 2024 多模态学习最新综述:普林斯顿大学、武汉大学等从数据视角解读多模态学习
在介绍了涉及其他模态的视觉和数据的各种判别性和生成性多模态应用之后,作者从技术设计和与数据属性的联系的角度重新审视和总结了现有的工作。此外,文中从表示学习和下游应用层面研究了多模态学习的现有文献,并根据它们与数据性质的技术联系进行了额外的比较,例如图像对象和文本描述之间的语义一致性以及节奏视频舞蹈动作和音乐节拍之间的对应关系。表2给出了生成任务中的评价指标。基于 GAN 的模型 与 VAE 类似,基于 GAN 的模型的训练不需要外部注释,只需要真实的原始数据,因此经常用于无监督或弱监督的环境中。原创 2024-10-06 19:38:48 · 1608 阅读 · 2 评论 -
CoRL 2024 麻省理工学院提出T3触觉Transformer,打破触觉感知的壁垒,重塑未来机器人
通过在FoTa数据集上进行预训练,T3具备了强大的泛化能力,我们可以通过少量领域的特定数据对其进行进一步的微调,并且其性能可随网络规模的增大而提高,如此便能够应对各种不同的感知需求。为了探究T3的优劣,我们训练和评估了3个策略:一个没有触觉输入的基础策略,一个由从头开始训练的神经网络编码的触觉输入策略,以及一个由T3编码的触觉输出策略。预训练的T3在许多任务上展现了显著的性能提升,特别是在复杂的长时间接触操作任务中,例如多引脚电子元件的插入任务,T3相较于传统方法提高了25%的任务成功率。原创 2024-10-04 20:43:40 · 1114 阅读 · 0 评论 -
Nature Communications 可远程操控食欲的口服软体机器人
结果显示,在摄入48小时后,七分之五的装置完好无损,证明了其在体内的稳定性和持久性。这种设备的设计克服了传统可摄入电刺激设备的一些限制,如电极与组织接触不良和电池寿命有限,为胃肠道疾病的治疗提供了新的可能性。IngRI的功耗(约为100mW)可以与最近发表在顶级期刊上的各式用于提供机电刺激的可吞服电子设备相媲美,例如STIMS(Science Advances,2020)、RoboCap(Science Robotics, 2023)、和FLASH(Science Robotics, 2023)。原创 2024-09-11 15:41:45 · 1361 阅读 · 0 评论 -
Nature 子刊 | 一种新型基于瞬时穿梭的探针
完全溶解的PVA还有助于降低网状电极在大脑中的刚度,使得网状电极不会干扰神经元的再生,减少生物免疫反应的发生。为验证基于瞬时梭的探针在植入网状电极和撤回梭子过程中预防二次损伤的能力,研究人员比较了瞬时梭和非瞬时梭(基于SU-8)在植入和撤回过程中的摩擦力与剪切力。PVA的可溶解性既为电极的植入提供了所需的刚度,又通过刚度的调整实现了电极的长期植入,从而减少了植入过程中的组织损伤。基于瞬时穿梭的探针在PBS溶液中浸泡时,水分进入网状电极的空隙,促使网状电极与PVA穿梭器迅速溶解和分离,约需6分钟(见图2)。原创 2024-08-16 12:20:08 · 902 阅读 · 0 评论 -
RSS 2024 清华大学交叉院高阳提出高效的机器人操作技能学习方法
ATM首先在视频数据上预训练一个语言条件轨迹预测模型,以预测视频帧内任意点的未来轨迹,而后,ATM框架通过利用视频中的轨迹信息,引导机器人学会执行一系列复杂的操作和任务,包括空间推理、物体操作、目标理解、长时视野规划以及跨形态和跨域的技能迁移。在视频中可以看到,借助ATM框架的强大助力,机器人仅需通过观察人类执行如叠衣服、将番茄放入盘子、用刷子整理玩具等无动作标签的视频数据集,学习其中任意2D点的轨迹建议,便能实现样本高效的策略学习,并具备跨具体任务的迁移能力,从而完美复刻人类的复杂动作!原创 2024-08-04 16:03:34 · 1187 阅读 · 0 评论 -
ICRA 2024 基于transformer大模型实现机器人自主导航
本文中描述了如何训练一个统一的扩散策略模型将所有的任务鞣和起来,用于处理面向目标的导航和与目标无关的探索,后者提供搜索新环境的能力,而前者提供 一旦找到用户指定的目标,就能识别并终止。现象表明,这种统一模型在导航到图像视觉指定的目标时,策略会带来更好的整体性能 与使用生成式子目标导航算法的方法相比,陌生环境下,模型需要基于潜在变量训练。在陌生环境中显示有效的导航,并在图像显示出 5种规划的路径,并显示出性能的显着改善和更低的碰撞率,同时,使用的模型比最先进的方法要小。原创 2024-06-27 09:23:01 · 832 阅读 · 0 评论
分享