自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(555)
  • 收藏
  • 关注

原创 DoReMi:通过规划-执行不一致的检测和恢复去落地语言模型

23年9月来自清华和上海姚期智研究院的论文“DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment”。

2024-10-02 00:28:06 549

原创 PROGPROMPT:使用大语言模型生成情境机器人任务规划

22年9月来自 USC 和 Nvidia 的论文 “PROGPROMPT: Generating Situated Robot Task Plans using Large Language Models”。

2024-10-02 00:27:21 528

原创 STORM:为强化学习基于高效随机Transformer的世界模型

23年10月来自北理工和清华的论文“STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning”。

2024-10-01 00:36:07 765

原创 EUREKA:通过编码大语言模型实现人类级别的奖励设计

24年4月来自Nvidia、UPenn、Caltech 和 UT Austin 的论文“EUREKA: Human-Level Reward Design Via Coding Large Language Models”。

2024-10-01 00:35:12 963

原创 RoboFlamingo:视觉-语言基础模型作为有效的机器人模拟器

24年2月来自字节、清华、上海交大和新加坡国立大学的论文“Vision-language foundation models as effective robot imitators”。

2024-09-30 01:36:11 1090 1

原创 ROBOTURK:一个通过模仿进行机器人技能学习的众包平台

2018年11月来自斯坦福大学的论文“ROBOTURK: A Crowdsourcing Platform for Robotic Skill Learning through Imitation”。

2024-09-30 01:33:04 576

原创 AnyTeleop:基于视觉的通用灵巧机械臂遥操作系统

23年7月来自UCSD和Nvidia的论文“AnyTeleop: A General Vision-Based Dexterous Robot Arm-Hand Teleoperation System”。

2024-09-29 01:58:06 715

原创 AirExo:野外学习整臂操作的低成本外骨骼框架

23年9月来自上海交大和上海AI实验室的论文“AirExo: Low-Cost Exoskeletons for Learning Whole-Arm Manipulation in the Wild”。

2024-09-29 01:56:37 998

原创 OPEN TEACH:用于机器人操作的多功能远程操作系统

24年3月来自纽约大学和Meta的论文“OPEN TEACH: A Versatile Teleoperation System for Robotic Manipulation”。

2024-09-28 03:08:28 738

原创 采用全身外骨骼座舱 TABLIS的双边人形遥操作系统

20年10月来自东京大学的论文“Bilateral humanoid teleoperation system using whole-body exoskeleton cockpit TABLIS”。

2024-09-28 03:04:15 419

原创 一个用于直观遥控拟人机械手的可穿戴上肢外骨骼

23年3月来自中科院沈阳机器人自动化所的论文“A Wearable Upper Limb Exoskeleton for Intuitive Teleoperation of Anthropomorphic Manipulators”。

2024-09-28 03:02:45 885

原创 DROID:大规模野外机器人操作数据集

24年3月来自斯坦福和伯克利分校的论文“DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset”。

2024-09-28 03:01:42 627

原创 RH20T:用于单样本学习多种技能的综合机器人数据集

23年7月来自上海交大的论文“RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in One-Shot”。

2024-09-27 00:11:27 762

原创 交叉扩散:通过自监督学习改进基于扩散的视觉运动策略

24年1月来自纽约州 Stony Brook U 的论文“Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via Self-supervised Learning”。

2024-09-27 00:10:10 725

原创 BEHAVIOR-1K:以人为本、具身化的 AI 基准,包含 1,000 个日常活动和逼真的模拟

24年3月来自斯坦福大学、德州奥斯汀分校、UIUC和南加州大学的论文“BEHAVIOR-1K: A Human-Centered, Embodied AI Benchmark with 1,000 Everyday Activities and Realistic Simulation”。

2024-09-26 00:20:53 736

原创 InternVid:用于多模态理解和生成的大规模视频文本数据集

24年1月来自上海AI实验室、南京大学、Monash U、香港大学、南洋理工和中科院深圳高等研究院的论文“InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation”。

2024-09-26 00:18:45 698

原创 HOI4D:用于类别级人-目标交互的 4D 以自我为中心视图数据集

24年1月来自清华、北大和上海姚期智研究院的更新论文“HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object Interaction”。

2024-09-26 00:17:05 700

原创 视觉 Mamba 的综述

要处理 2D 图像,首先通过 stem 模块将它们转换为视觉token序列,该模块通常由一个卷积层和随后的线性投影层组成。位置嵌入的添加是可选的,因为 SSM 操作本身具有因果属性。类token的包含也是可选的。一些工作插入额外的token作为寄存器(Darcet,2024)或感知行或列之间的不连续性。现有方法通过将它们视为 1D 或 2D 结构来处理图像序列,以进行基于 Mamba 块中的 SSM 变换和卷积运算。

2024-09-25 03:40:15 1238

原创 DRAMA:基于 Mamba 的高效端到端自动驾驶运动规划器

24年8月来自新加坡国立大学和Moovita Pte公司的论文“DRAMA: An Efficient End-to-end Motion Planner for Autonomous Driving with Mamba”。

2024-09-25 03:38:31 546

原创 RoboDreamer:学习机器人想象力的组合世界模型

24年4月来自香港科技大学、MIT、UCSD、谷歌、麻省大学和MIT-IBM实验室的论文“RoboDreamer: Learning Compositional World Models for Robot Imagination”。

2024-09-25 03:35:47 831

原创 Habitat-Matterport 3D 数据集:1000 个用于具身 AI 的大型 3D 环境

21年3月来自Facebook AI,UT Austin,Georgia Tech,Simon Fraser U 和 Cornell U的论文“Habitat-Matterport 3D Dataset (HM3D): 1000 Large-scale 3D Environments for Embodied AI”。

2024-09-25 02:49:01 602

原创 Assembly101:用于理解程序活动的大规模多视图视频数据集

22年3月来自Meta和新加坡国立的论文“Assembly101: A Large-Scale Multi-View Video Dataset for Understanding Procedural Activities”。

2024-09-25 02:45:50 964

原创 探索机器人操作的视觉预训练:数据集、模型和方法

23年8月来自字节、东南大学和清华的论文“Exploring Visual Pre-training for Robot Manipulation: Datasets, Models and Methods”。

2024-09-24 00:08:09 688

原创 RoboNet:大规模多机器人学习

20年1月来自 UC Berkeley, Stanford Uni, UPenn, CMU 的论文“RoboNet: Large-Scale Multi-Robot Learning”。

2024-09-24 00:05:38 983

原创 代码即策略:具身控制的语言模型程序

23年5月来自谷歌的论文“Code as Policies: Language Model Programs for Embodied Control”。

2024-09-23 00:23:57 878

原创 Inner Monologue:通过语言模型规划进行具身推理

22年7月来自谷歌的论文“Inner Monologue: Embodied Reasoning through Planning with Language Models”。

2024-09-23 00:21:29 965

原创 LLM-Planner:针对大语言模型具身智体的少样本落地规划

23年3月来自Ohio State U的论文“LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models”。

2024-09-22 00:10:23 567

原创 三思而后行:ViLa 揭示GPT-4V 在机器人视觉-语言规划中的强大功能

23年11月来自清华、上海AI实验室和上海姚期智研究院的论文“Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning”。

2024-09-22 00:09:02 508

原创 SpatialVLM:赋予视觉-语言模型空间推理能力

24年1月来自谷歌的论文“SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities”。

2024-09-22 00:06:55 641

原创 3D 扩散策略:简单 3D 表示进行可泛化视觉运动的策略学习

24年6月来自上海姚期智研究院、上海交大、清华和上海AI实验室的论文“3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations”。

2024-09-21 00:13:39 686

原创 Socratic Planner: 用于具身指令跟随的基于查询零样本规划方法

24年4月来自韩国首尔大学的论文“Socratic Planner: Inquiry-Based Zero-Shot Planning for Embodied Instruction Following”。

2024-09-21 00:12:41 1014

原创 Open-TeleVision:具有沉浸式主动视觉反馈的远程操作

24年7月来自UCSD和MIT的论文“Open-TeleVision: Teleoperation with Immersive Active Visual Feedback”。

2024-09-20 00:03:26 643

原创 HumanPlus:人形机器人对人的跟随和模仿

24年6月来自斯坦福大学的论文“HumanPlus: Humanoid Shadowing and Imitation from Humans“。

2024-09-20 00:02:58 1106

原创 视频作为现实世界决策的新语言

24年2月来自谷歌和伯克利分校的论文“Video as the New Language for Real-World Decision Making”。

2024-09-19 00:26:52 1163

原创 GELLO:一种通用、低成本、直观的机器人遥控框架

24年7月更新的伯克利分校论文“GELLO: A General, Low-Cost, and Intuitive Teleoperation Framework for Robot Manipulators”。

2024-09-19 00:25:23 973

原创 EmbodiedGPT:通过具身的思维链进行视觉-语言预训练

23年9月来自香港大学、上海AI实验室和华为诺亚实验室的论文“EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought”。

2024-09-18 00:04:01 740

原创 UniPi:通过文本引导的视频生成去学习通用策略

23年11月来自MIT、谷歌、伯克利分校、乔治亚理工和Alberta大学的论文“Learning Universal Policies via Text-Guided Video Generation”。

2024-09-18 00:03:05 789

原创 MT-Opt:大规模持续多任务的机器人强化学习

21年4月来自谷歌的论文“MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale”。

2024-09-17 00:27:36 940

原创 BC-Z:利用机器人模仿学习进行零样本任务泛化

22年2月来自谷歌、Everyday Robots、伯克利分校和斯坦福的论文“BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning”。

2024-09-17 00:26:22 831

原创 多模态大语言模型落地于动作

24年6月来自苹果公司、乔治亚理工和加拿大Mila AI的论文“Grounding Multimodal Large Language Models in Actions”。

2024-09-16 10:04:02 946

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除