- 博客(555)
- 收藏
- 关注
原创 DoReMi:通过规划-执行不一致的检测和恢复去落地语言模型
23年9月来自清华和上海姚期智研究院的论文“DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment”。
2024-10-02 00:28:06 549
原创 PROGPROMPT:使用大语言模型生成情境机器人任务规划
22年9月来自 USC 和 Nvidia 的论文 “PROGPROMPT: Generating Situated Robot Task Plans using Large Language Models”。
2024-10-02 00:27:21 528
原创 STORM:为强化学习基于高效随机Transformer的世界模型
23年10月来自北理工和清华的论文“STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning”。
2024-10-01 00:36:07 765
原创 EUREKA:通过编码大语言模型实现人类级别的奖励设计
24年4月来自Nvidia、UPenn、Caltech 和 UT Austin 的论文“EUREKA: Human-Level Reward Design Via Coding Large Language Models”。
2024-10-01 00:35:12 963
原创 RoboFlamingo:视觉-语言基础模型作为有效的机器人模拟器
24年2月来自字节、清华、上海交大和新加坡国立大学的论文“Vision-language foundation models as effective robot imitators”。
2024-09-30 01:36:11 1090 1
原创 ROBOTURK:一个通过模仿进行机器人技能学习的众包平台
2018年11月来自斯坦福大学的论文“ROBOTURK: A Crowdsourcing Platform for Robotic Skill Learning through Imitation”。
2024-09-30 01:33:04 576
原创 AnyTeleop:基于视觉的通用灵巧机械臂遥操作系统
23年7月来自UCSD和Nvidia的论文“AnyTeleop: A General Vision-Based Dexterous Robot Arm-Hand Teleoperation System”。
2024-09-29 01:58:06 715
原创 AirExo:野外学习整臂操作的低成本外骨骼框架
23年9月来自上海交大和上海AI实验室的论文“AirExo: Low-Cost Exoskeletons for Learning Whole-Arm Manipulation in the Wild”。
2024-09-29 01:56:37 998
原创 OPEN TEACH:用于机器人操作的多功能远程操作系统
24年3月来自纽约大学和Meta的论文“OPEN TEACH: A Versatile Teleoperation System for Robotic Manipulation”。
2024-09-28 03:08:28 738
原创 采用全身外骨骼座舱 TABLIS的双边人形遥操作系统
20年10月来自东京大学的论文“Bilateral humanoid teleoperation system using whole-body exoskeleton cockpit TABLIS”。
2024-09-28 03:04:15 419
原创 一个用于直观遥控拟人机械手的可穿戴上肢外骨骼
23年3月来自中科院沈阳机器人自动化所的论文“A Wearable Upper Limb Exoskeleton for Intuitive Teleoperation of Anthropomorphic Manipulators”。
2024-09-28 03:02:45 885
原创 DROID:大规模野外机器人操作数据集
24年3月来自斯坦福和伯克利分校的论文“DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset”。
2024-09-28 03:01:42 627
原创 RH20T:用于单样本学习多种技能的综合机器人数据集
23年7月来自上海交大的论文“RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in One-Shot”。
2024-09-27 00:11:27 762
原创 交叉扩散:通过自监督学习改进基于扩散的视觉运动策略
24年1月来自纽约州 Stony Brook U 的论文“Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via Self-supervised Learning”。
2024-09-27 00:10:10 725
原创 BEHAVIOR-1K:以人为本、具身化的 AI 基准,包含 1,000 个日常活动和逼真的模拟
24年3月来自斯坦福大学、德州奥斯汀分校、UIUC和南加州大学的论文“BEHAVIOR-1K: A Human-Centered, Embodied AI Benchmark with 1,000 Everyday Activities and Realistic Simulation”。
2024-09-26 00:20:53 736
原创 InternVid:用于多模态理解和生成的大规模视频文本数据集
24年1月来自上海AI实验室、南京大学、Monash U、香港大学、南洋理工和中科院深圳高等研究院的论文“InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation”。
2024-09-26 00:18:45 698
原创 HOI4D:用于类别级人-目标交互的 4D 以自我为中心视图数据集
24年1月来自清华、北大和上海姚期智研究院的更新论文“HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object Interaction”。
2024-09-26 00:17:05 700
原创 视觉 Mamba 的综述
要处理 2D 图像,首先通过 stem 模块将它们转换为视觉token序列,该模块通常由一个卷积层和随后的线性投影层组成。位置嵌入的添加是可选的,因为 SSM 操作本身具有因果属性。类token的包含也是可选的。一些工作插入额外的token作为寄存器(Darcet,2024)或感知行或列之间的不连续性。现有方法通过将它们视为 1D 或 2D 结构来处理图像序列,以进行基于 Mamba 块中的 SSM 变换和卷积运算。
2024-09-25 03:40:15 1238
原创 DRAMA:基于 Mamba 的高效端到端自动驾驶运动规划器
24年8月来自新加坡国立大学和Moovita Pte公司的论文“DRAMA: An Efficient End-to-end Motion Planner for Autonomous Driving with Mamba”。
2024-09-25 03:38:31 546
原创 RoboDreamer:学习机器人想象力的组合世界模型
24年4月来自香港科技大学、MIT、UCSD、谷歌、麻省大学和MIT-IBM实验室的论文“RoboDreamer: Learning Compositional World Models for Robot Imagination”。
2024-09-25 03:35:47 831
原创 Habitat-Matterport 3D 数据集:1000 个用于具身 AI 的大型 3D 环境
21年3月来自Facebook AI,UT Austin,Georgia Tech,Simon Fraser U 和 Cornell U的论文“Habitat-Matterport 3D Dataset (HM3D): 1000 Large-scale 3D Environments for Embodied AI”。
2024-09-25 02:49:01 602
原创 Assembly101:用于理解程序活动的大规模多视图视频数据集
22年3月来自Meta和新加坡国立的论文“Assembly101: A Large-Scale Multi-View Video Dataset for Understanding Procedural Activities”。
2024-09-25 02:45:50 964
原创 探索机器人操作的视觉预训练:数据集、模型和方法
23年8月来自字节、东南大学和清华的论文“Exploring Visual Pre-training for Robot Manipulation: Datasets, Models and Methods”。
2024-09-24 00:08:09 688
原创 RoboNet:大规模多机器人学习
20年1月来自 UC Berkeley, Stanford Uni, UPenn, CMU 的论文“RoboNet: Large-Scale Multi-Robot Learning”。
2024-09-24 00:05:38 983
原创 代码即策略:具身控制的语言模型程序
23年5月来自谷歌的论文“Code as Policies: Language Model Programs for Embodied Control”。
2024-09-23 00:23:57 878
原创 Inner Monologue:通过语言模型规划进行具身推理
22年7月来自谷歌的论文“Inner Monologue: Embodied Reasoning through Planning with Language Models”。
2024-09-23 00:21:29 965
原创 LLM-Planner:针对大语言模型具身智体的少样本落地规划
23年3月来自Ohio State U的论文“LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models”。
2024-09-22 00:10:23 567
原创 三思而后行:ViLa 揭示GPT-4V 在机器人视觉-语言规划中的强大功能
23年11月来自清华、上海AI实验室和上海姚期智研究院的论文“Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning”。
2024-09-22 00:09:02 508
原创 SpatialVLM:赋予视觉-语言模型空间推理能力
24年1月来自谷歌的论文“SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities”。
2024-09-22 00:06:55 641
原创 3D 扩散策略:简单 3D 表示进行可泛化视觉运动的策略学习
24年6月来自上海姚期智研究院、上海交大、清华和上海AI实验室的论文“3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations”。
2024-09-21 00:13:39 686
原创 Socratic Planner: 用于具身指令跟随的基于查询零样本规划方法
24年4月来自韩国首尔大学的论文“Socratic Planner: Inquiry-Based Zero-Shot Planning for Embodied Instruction Following”。
2024-09-21 00:12:41 1014
原创 Open-TeleVision:具有沉浸式主动视觉反馈的远程操作
24年7月来自UCSD和MIT的论文“Open-TeleVision: Teleoperation with Immersive Active Visual Feedback”。
2024-09-20 00:03:26 643
原创 HumanPlus:人形机器人对人的跟随和模仿
24年6月来自斯坦福大学的论文“HumanPlus: Humanoid Shadowing and Imitation from Humans“。
2024-09-20 00:02:58 1106
原创 视频作为现实世界决策的新语言
24年2月来自谷歌和伯克利分校的论文“Video as the New Language for Real-World Decision Making”。
2024-09-19 00:26:52 1163
原创 GELLO:一种通用、低成本、直观的机器人遥控框架
24年7月更新的伯克利分校论文“GELLO: A General, Low-Cost, and Intuitive Teleoperation Framework for Robot Manipulators”。
2024-09-19 00:25:23 973
原创 EmbodiedGPT:通过具身的思维链进行视觉-语言预训练
23年9月来自香港大学、上海AI实验室和华为诺亚实验室的论文“EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought”。
2024-09-18 00:04:01 740
原创 UniPi:通过文本引导的视频生成去学习通用策略
23年11月来自MIT、谷歌、伯克利分校、乔治亚理工和Alberta大学的论文“Learning Universal Policies via Text-Guided Video Generation”。
2024-09-18 00:03:05 789
原创 MT-Opt:大规模持续多任务的机器人强化学习
21年4月来自谷歌的论文“MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale”。
2024-09-17 00:27:36 940
原创 BC-Z:利用机器人模仿学习进行零样本任务泛化
22年2月来自谷歌、Everyday Robots、伯克利分校和斯坦福的论文“BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning”。
2024-09-17 00:26:22 831
原创 多模态大语言模型落地于动作
24年6月来自苹果公司、乔治亚理工和加拿大Mila AI的论文“Grounding Multimodal Large Language Models in Actions”。
2024-09-16 10:04:02 946
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人