- 博客(569)
- 收藏
- 关注
原创 TinyVLA:面向机器人操控的快速、数据高效、视觉-语言-动作模型
24年9月来自华东师范大学、上海大学、Syracuse大学和北京人形机器人创新中心的论文“TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation”。
2024-10-09 00:56:04 828
原创 以自我中心的视觉语言规划
24年8月来自北京智源研究院、清华深圳国际研究生院和北大的论文“Egocentric Vision Language Planning”。
2024-10-09 00:55:29 641
原创 Plan-Seq-Learn:语言模型引导强化学习解决长范围机器人任务
24年5月来自CMU和Mistral AI的论文“Plan-Seq-Learn: Language model guided RL for solving long horizon robotics tasks”。
2024-10-08 00:12:35 680
原创 PERCEIVER-ACTOR: 用于机器人操作的多任务Transformer
22年11月来自华盛顿大学和Nvidia的论文 “PERCEIVER-ACTOR: A Multi-Task Transformer for Robotic Manipulation”。
2024-10-08 00:11:40 902
原创 AI2-THOR:用于视觉 AI 的交互式 3D 环境
22年8月来自AI2、西雅图华盛顿大学、斯坦福大学和CMU的论文“AI2-THOR: An Interactive 3D Environment for Visual AI”。
2024-10-07 00:46:31 715
原创 基于 Transformer 的世界模型可以满足 100K 次交互的要求
23年3月来自多特蒙德大学的论文“Transformer-based world models are happy with 100k interactions”。
2024-10-07 00:45:19 677
原创 ConceptGraphs:用于感知和规划的开放词汇 3D 场景图
23年9月来自多伦多大学、蒙特利尔大学、MIT等的论文“ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning”。
2024-10-06 03:50:27 696
原创 ACE:低成本灵巧遥控操作的跨平台视觉外骨骼系统
24年8月来自UCSD的论文“ACE: A Cross-Platform Visual-Exoskeletons System for Low-Cost Dexterous Teleoperation”。
2024-10-06 03:49:10 757
原创 SELF-REFINE: 带自我反馈的迭代改进
23年5月来自CMU、AI2、U Washington、Nvidia、UCSD和谷歌的论文 “SELF-REFINE: Iterative Refinement with Self-Feedback”。
2024-10-05 02:10:54 654
原创 Reflexion:具有口头强化学习的语言智体
23年10月来自东北大学、MIT和普林斯顿大学的论文“Reflexion: Language Agents with Verbal Reinforcement Learning”。
2024-10-05 02:09:55 290
原创 iGibson 2.0:以目标为中心的模拟,用于机器人学习日常家务
21年11月来自斯坦福的论文“iGibson 2.0: Object-Centric Simulation for Robot Learning of Everyday Household Tasks”。
2024-10-04 00:08:25 602
原创 iGibson 1.0:大型现实场景中的交互式任务模拟环境
21年8月来自斯坦福的论文“iGibson 1.0: A Simulation Environment for Interactive Tasks in Large Realistic Scenes“。
2024-10-04 00:07:38 889
原创 Holo-Dex:通过沉浸式混合现实教学机器人灵活性
22年10月来自NYU和Meta的论文“Holo-Dex: Teaching Dexterity with Immersive Mixed Reality”。
2024-10-03 00:09:49 800
原创 SayPlan:使用 3D 场景图为可扩展的机器人任务规划落地大语言模型
23年7月来自澳洲昆士兰科技大学和阿德莱德大学的论文“SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning”。
2024-10-03 00:07:21 1016
原创 DoReMi:通过规划-执行不一致的检测和恢复去落地语言模型
23年9月来自清华和上海姚期智研究院的论文“DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment”。
2024-10-02 00:28:06 744
原创 PROGPROMPT:使用大语言模型生成情境机器人任务规划
22年9月来自 USC 和 Nvidia 的论文 “PROGPROMPT: Generating Situated Robot Task Plans using Large Language Models”。
2024-10-02 00:27:21 759
原创 STORM:为强化学习基于高效随机Transformer的世界模型
23年10月来自北理工和清华的论文“STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning”。
2024-10-01 00:36:07 831
原创 EUREKA:通过编码大语言模型实现人类级别的奖励设计
24年4月来自Nvidia、UPenn、Caltech 和 UT Austin 的论文“EUREKA: Human-Level Reward Design Via Coding Large Language Models”。
2024-10-01 00:35:12 1102
原创 RoboFlamingo:视觉-语言基础模型作为有效的机器人模拟器
24年2月来自字节、清华、上海交大和新加坡国立大学的论文“Vision-language foundation models as effective robot imitators”。
2024-09-30 01:36:11 1124 1
原创 ROBOTURK:一个通过模仿进行机器人技能学习的众包平台
2018年11月来自斯坦福大学的论文“ROBOTURK: A Crowdsourcing Platform for Robotic Skill Learning through Imitation”。
2024-09-30 01:33:04 588
原创 AnyTeleop:基于视觉的通用灵巧机械臂遥操作系统
23年7月来自UCSD和Nvidia的论文“AnyTeleop: A General Vision-Based Dexterous Robot Arm-Hand Teleoperation System”。
2024-09-29 01:58:06 734
原创 AirExo:野外学习整臂操作的低成本外骨骼框架
23年9月来自上海交大和上海AI实验室的论文“AirExo: Low-Cost Exoskeletons for Learning Whole-Arm Manipulation in the Wild”。
2024-09-29 01:56:37 1028
原创 OPEN TEACH:用于机器人操作的多功能远程操作系统
24年3月来自纽约大学和Meta的论文“OPEN TEACH: A Versatile Teleoperation System for Robotic Manipulation”。
2024-09-28 03:08:28 752
原创 采用全身外骨骼座舱 TABLIS的双边人形遥操作系统
20年10月来自东京大学的论文“Bilateral humanoid teleoperation system using whole-body exoskeleton cockpit TABLIS”。
2024-09-28 03:04:15 439
原创 一个用于直观遥控拟人机械手的可穿戴上肢外骨骼
23年3月来自中科院沈阳机器人自动化所的论文“A Wearable Upper Limb Exoskeleton for Intuitive Teleoperation of Anthropomorphic Manipulators”。
2024-09-28 03:02:45 901
原创 DROID:大规模野外机器人操作数据集
24年3月来自斯坦福和伯克利分校的论文“DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset”。
2024-09-28 03:01:42 639
原创 RH20T:用于单样本学习多种技能的综合机器人数据集
23年7月来自上海交大的论文“RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in One-Shot”。
2024-09-27 00:11:27 775
原创 交叉扩散:通过自监督学习改进基于扩散的视觉运动策略
24年1月来自纽约州 Stony Brook U 的论文“Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via Self-supervised Learning”。
2024-09-27 00:10:10 739
原创 BEHAVIOR-1K:以人为本、具身化的 AI 基准,包含 1,000 个日常活动和逼真的模拟
24年3月来自斯坦福大学、德州奥斯汀分校、UIUC和南加州大学的论文“BEHAVIOR-1K: A Human-Centered, Embodied AI Benchmark with 1,000 Everyday Activities and Realistic Simulation”。
2024-09-26 00:20:53 748
原创 InternVid:用于多模态理解和生成的大规模视频文本数据集
24年1月来自上海AI实验室、南京大学、Monash U、香港大学、南洋理工和中科院深圳高等研究院的论文“InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation”。
2024-09-26 00:18:45 704
原创 HOI4D:用于类别级人-目标交互的 4D 以自我为中心视图数据集
24年1月来自清华、北大和上海姚期智研究院的更新论文“HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object Interaction”。
2024-09-26 00:17:05 704
原创 视觉 Mamba 的综述
要处理 2D 图像,首先通过 stem 模块将它们转换为视觉token序列,该模块通常由一个卷积层和随后的线性投影层组成。位置嵌入的添加是可选的,因为 SSM 操作本身具有因果属性。类token的包含也是可选的。一些工作插入额外的token作为寄存器(Darcet,2024)或感知行或列之间的不连续性。现有方法通过将它们视为 1D 或 2D 结构来处理图像序列,以进行基于 Mamba 块中的 SSM 变换和卷积运算。
2024-09-25 03:40:15 1257
原创 DRAMA:基于 Mamba 的高效端到端自动驾驶运动规划器
24年8月来自新加坡国立大学和Moovita Pte公司的论文“DRAMA: An Efficient End-to-end Motion Planner for Autonomous Driving with Mamba”。
2024-09-25 03:38:31 552
原创 RoboDreamer:学习机器人想象力的组合世界模型
24年4月来自香港科技大学、MIT、UCSD、谷歌、麻省大学和MIT-IBM实验室的论文“RoboDreamer: Learning Compositional World Models for Robot Imagination”。
2024-09-25 03:35:47 837
原创 Habitat-Matterport 3D 数据集:1000 个用于具身 AI 的大型 3D 环境
21年3月来自Facebook AI,UT Austin,Georgia Tech,Simon Fraser U 和 Cornell U的论文“Habitat-Matterport 3D Dataset (HM3D): 1000 Large-scale 3D Environments for Embodied AI”。
2024-09-25 02:49:01 620
原创 Assembly101:用于理解程序活动的大规模多视图视频数据集
22年3月来自Meta和新加坡国立的论文“Assembly101: A Large-Scale Multi-View Video Dataset for Understanding Procedural Activities”。
2024-09-25 02:45:50 979
原创 探索机器人操作的视觉预训练:数据集、模型和方法
23年8月来自字节、东南大学和清华的论文“Exploring Visual Pre-training for Robot Manipulation: Datasets, Models and Methods”。
2024-09-24 00:08:09 692
原创 RoboNet:大规模多机器人学习
20年1月来自 UC Berkeley, Stanford Uni, UPenn, CMU 的论文“RoboNet: Large-Scale Multi-Robot Learning”。
2024-09-24 00:05:38 985
原创 代码即策略:具身控制的语言模型程序
23年5月来自谷歌的论文“Code as Policies: Language Model Programs for Embodied Control”。
2024-09-23 00:23:57 881
原创 Inner Monologue:通过语言模型规划进行具身推理
22年7月来自谷歌的论文“Inner Monologue: Embodied Reasoning through Planning with Language Models”。
2024-09-23 00:21:29 976
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人