自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(569)
  • 收藏
  • 关注

原创 TinyVLA:面向机器人操控的快速、数据高效、视觉-语言-动作模型

24年9月来自华东师范大学、上海大学、Syracuse大学和北京人形机器人创新中心的论文“TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation”。

2024-10-09 00:56:04 828

原创 以自我中心的视觉语言规划

24年8月来自北京智源研究院、清华深圳国际研究生院和北大的论文“Egocentric Vision Language Planning”。

2024-10-09 00:55:29 641

原创 Plan-Seq-Learn:语言模型引导强化学习解决长范围机器人任务

24年5月来自CMU和Mistral AI的论文“Plan-Seq-Learn: Language model guided RL for solving long horizon robotics tasks”。

2024-10-08 00:12:35 680

原创 PERCEIVER-ACTOR: 用于机器人操作的多任务Transformer

22年11月来自华盛顿大学和Nvidia的论文 “PERCEIVER-ACTOR: A Multi-Task Transformer for Robotic Manipulation”。

2024-10-08 00:11:40 902

原创 AI2-THOR:用于视觉 AI 的交互式 3D 环境

22年8月来自AI2、西雅图华盛顿大学、斯坦福大学和CMU的论文“AI2-THOR: An Interactive 3D Environment for Visual AI”。

2024-10-07 00:46:31 715

原创 基于 Transformer 的世界模型可以满足 100K 次交互的要求

23年3月来自多特蒙德大学的论文“Transformer-based world models are happy with 100k interactions”。

2024-10-07 00:45:19 677

原创 ConceptGraphs:用于感知和规划的开放词汇 3D 场景图

23年9月来自多伦多大学、蒙特利尔大学、MIT等的论文“ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning”。

2024-10-06 03:50:27 696

原创 ACE:低成本灵巧遥控操作的跨平台视觉外骨骼系统

24年8月来自UCSD的论文“ACE: A Cross-Platform Visual-Exoskeletons System for Low-Cost Dexterous Teleoperation”。

2024-10-06 03:49:10 757

原创 SELF-REFINE: 带自我反馈的迭代改进

23年5月来自CMU、AI2、U Washington、Nvidia、UCSD和谷歌的论文 “SELF-REFINE: Iterative Refinement with Self-Feedback”。

2024-10-05 02:10:54 654

原创 Reflexion:具有口头强化学习的语言智体

23年10月来自东北大学、MIT和普林斯顿大学的论文“Reflexion: Language Agents with Verbal Reinforcement Learning”。

2024-10-05 02:09:55 290

原创 iGibson 2.0:以目标为中心的模拟,用于机器人学习日常家务

21年11月来自斯坦福的论文“iGibson 2.0: Object-Centric Simulation for Robot Learning of Everyday Household Tasks”。

2024-10-04 00:08:25 602

原创 iGibson 1.0:大型现实场景中的交互式任务模拟环境

21年8月来自斯坦福的论文“iGibson 1.0: A Simulation Environment for Interactive Tasks in Large Realistic Scenes“。

2024-10-04 00:07:38 889

原创 Holo-Dex:通过沉浸式混合现实教学机器人灵活性

22年10月来自NYU和Meta的论文“Holo-Dex: Teaching Dexterity with Immersive Mixed Reality”。

2024-10-03 00:09:49 800

原创 SayPlan:使用 3D 场景图为可扩展的机器人任务规划落地大语言模型

23年7月来自澳洲昆士兰科技大学和阿德莱德大学的论文“SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning”。

2024-10-03 00:07:21 1016

原创 DoReMi:通过规划-执行不一致的检测和恢复去落地语言模型

23年9月来自清华和上海姚期智研究院的论文“DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment”。

2024-10-02 00:28:06 744

原创 PROGPROMPT:使用大语言模型生成情境机器人任务规划

22年9月来自 USC 和 Nvidia 的论文 “PROGPROMPT: Generating Situated Robot Task Plans using Large Language Models”。

2024-10-02 00:27:21 759

原创 STORM:为强化学习基于高效随机Transformer的世界模型

23年10月来自北理工和清华的论文“STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning”。

2024-10-01 00:36:07 831

原创 EUREKA:通过编码大语言模型实现人类级别的奖励设计

24年4月来自Nvidia、UPenn、Caltech 和 UT Austin 的论文“EUREKA: Human-Level Reward Design Via Coding Large Language Models”。

2024-10-01 00:35:12 1102

原创 RoboFlamingo:视觉-语言基础模型作为有效的机器人模拟器

24年2月来自字节、清华、上海交大和新加坡国立大学的论文“Vision-language foundation models as effective robot imitators”。

2024-09-30 01:36:11 1124 1

原创 ROBOTURK:一个通过模仿进行机器人技能学习的众包平台

2018年11月来自斯坦福大学的论文“ROBOTURK: A Crowdsourcing Platform for Robotic Skill Learning through Imitation”。

2024-09-30 01:33:04 588

原创 AnyTeleop:基于视觉的通用灵巧机械臂遥操作系统

23年7月来自UCSD和Nvidia的论文“AnyTeleop: A General Vision-Based Dexterous Robot Arm-Hand Teleoperation System”。

2024-09-29 01:58:06 734

原创 AirExo:野外学习整臂操作的低成本外骨骼框架

23年9月来自上海交大和上海AI实验室的论文“AirExo: Low-Cost Exoskeletons for Learning Whole-Arm Manipulation in the Wild”。

2024-09-29 01:56:37 1028

原创 OPEN TEACH:用于机器人操作的多功能远程操作系统

24年3月来自纽约大学和Meta的论文“OPEN TEACH: A Versatile Teleoperation System for Robotic Manipulation”。

2024-09-28 03:08:28 752

原创 采用全身外骨骼座舱 TABLIS的双边人形遥操作系统

20年10月来自东京大学的论文“Bilateral humanoid teleoperation system using whole-body exoskeleton cockpit TABLIS”。

2024-09-28 03:04:15 439

原创 一个用于直观遥控拟人机械手的可穿戴上肢外骨骼

23年3月来自中科院沈阳机器人自动化所的论文“A Wearable Upper Limb Exoskeleton for Intuitive Teleoperation of Anthropomorphic Manipulators”。

2024-09-28 03:02:45 901

原创 DROID:大规模野外机器人操作数据集

24年3月来自斯坦福和伯克利分校的论文“DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset”。

2024-09-28 03:01:42 639

原创 RH20T:用于单样本学习多种技能的综合机器人数据集

23年7月来自上海交大的论文“RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in One-Shot”。

2024-09-27 00:11:27 775

原创 交叉扩散:通过自监督学习改进基于扩散的视觉运动策略

24年1月来自纽约州 Stony Brook U 的论文“Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via Self-supervised Learning”。

2024-09-27 00:10:10 739

原创 BEHAVIOR-1K:以人为本、具身化的 AI 基准,包含 1,000 个日常活动和逼真的模拟

24年3月来自斯坦福大学、德州奥斯汀分校、UIUC和南加州大学的论文“BEHAVIOR-1K: A Human-Centered, Embodied AI Benchmark with 1,000 Everyday Activities and Realistic Simulation”。

2024-09-26 00:20:53 748

原创 InternVid:用于多模态理解和生成的大规模视频文本数据集

24年1月来自上海AI实验室、南京大学、Monash U、香港大学、南洋理工和中科院深圳高等研究院的论文“InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation”。

2024-09-26 00:18:45 704

原创 HOI4D:用于类别级人-目标交互的 4D 以自我为中心视图数据集

24年1月来自清华、北大和上海姚期智研究院的更新论文“HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object Interaction”。

2024-09-26 00:17:05 704

原创 视觉 Mamba 的综述

要处理 2D 图像,首先通过 stem 模块将它们转换为视觉token序列,该模块通常由一个卷积层和随后的线性投影层组成。位置嵌入的添加是可选的,因为 SSM 操作本身具有因果属性。类token的包含也是可选的。一些工作插入额外的token作为寄存器(Darcet,2024)或感知行或列之间的不连续性。现有方法通过将它们视为 1D 或 2D 结构来处理图像序列,以进行基于 Mamba 块中的 SSM 变换和卷积运算。

2024-09-25 03:40:15 1257

原创 DRAMA:基于 Mamba 的高效端到端自动驾驶运动规划器

24年8月来自新加坡国立大学和Moovita Pte公司的论文“DRAMA: An Efficient End-to-end Motion Planner for Autonomous Driving with Mamba”。

2024-09-25 03:38:31 552

原创 RoboDreamer:学习机器人想象力的组合世界模型

24年4月来自香港科技大学、MIT、UCSD、谷歌、麻省大学和MIT-IBM实验室的论文“RoboDreamer: Learning Compositional World Models for Robot Imagination”。

2024-09-25 03:35:47 837

原创 Habitat-Matterport 3D 数据集:1000 个用于具身 AI 的大型 3D 环境

21年3月来自Facebook AI,UT Austin,Georgia Tech,Simon Fraser U 和 Cornell U的论文“Habitat-Matterport 3D Dataset (HM3D): 1000 Large-scale 3D Environments for Embodied AI”。

2024-09-25 02:49:01 620

原创 Assembly101:用于理解程序活动的大规模多视图视频数据集

22年3月来自Meta和新加坡国立的论文“Assembly101: A Large-Scale Multi-View Video Dataset for Understanding Procedural Activities”。

2024-09-25 02:45:50 979

原创 探索机器人操作的视觉预训练:数据集、模型和方法

23年8月来自字节、东南大学和清华的论文“Exploring Visual Pre-training for Robot Manipulation: Datasets, Models and Methods”。

2024-09-24 00:08:09 692

原创 RoboNet:大规模多机器人学习

20年1月来自 UC Berkeley, Stanford Uni, UPenn, CMU 的论文“RoboNet: Large-Scale Multi-Robot Learning”。

2024-09-24 00:05:38 985

原创 代码即策略:具身控制的语言模型程序

23年5月来自谷歌的论文“Code as Policies: Language Model Programs for Embodied Control”。

2024-09-23 00:23:57 881

原创 Inner Monologue:通过语言模型规划进行具身推理

22年7月来自谷歌的论文“Inner Monologue: Embodied Reasoning through Planning with Language Models”。

2024-09-23 00:21:29 976

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除