智能体
文章平均质量分 87
硅谷秋水
计算机视觉、图像视频处理、机器学习(深度学习)、自动驾驶、大模型和具身智体。
展开
-
iGibson 2.0:以目标为中心的模拟,用于机器人学习日常家务
21年11月来自斯坦福的论文“iGibson 2.0: Object-Centric Simulation for Robot Learning of Everyday Household Tasks”。原创 2024-10-04 00:08:25 · 342 阅读 · 0 评论 -
iGibson 1.0:大型现实场景中的交互式任务模拟环境
21年8月来自斯坦福的论文“iGibson 1.0: A Simulation Environment for Interactive Tasks in Large Realistic Scenes“。原创 2024-10-04 00:07:38 · 640 阅读 · 0 评论 -
Holo-Dex:通过沉浸式混合现实教学机器人灵活性
22年10月来自NYU和Meta的论文“Holo-Dex: Teaching Dexterity with Immersive Mixed Reality”。原创 2024-10-03 00:09:49 · 611 阅读 · 0 评论 -
SayPlan:使用 3D 场景图为可扩展的机器人任务规划落地大语言模型
23年7月来自澳洲昆士兰科技大学和阿德莱德大学的论文“SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning”。原创 2024-10-03 00:07:21 · 868 阅读 · 0 评论 -
DoReMi:通过规划-执行不一致的检测和恢复去落地语言模型
23年9月来自清华和上海姚期智研究院的论文“DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment”。原创 2024-10-02 00:28:06 · 736 阅读 · 0 评论 -
PROGPROMPT:使用大语言模型生成情境机器人任务规划
22年9月来自 USC 和 Nvidia 的论文 “PROGPROMPT: Generating Situated Robot Task Plans using Large Language Models”。原创 2024-10-02 00:27:21 · 735 阅读 · 0 评论 -
EUREKA:通过编码大语言模型实现人类级别的奖励设计
24年4月来自Nvidia、UPenn、Caltech 和 UT Austin 的论文“EUREKA: Human-Level Reward Design Via Coding Large Language Models”。原创 2024-10-01 00:35:12 · 1084 阅读 · 0 评论 -
RoboFlamingo:视觉-语言基础模型作为有效的机器人模拟器
24年2月来自字节、清华、上海交大和新加坡国立大学的论文“Vision-language foundation models as effective robot imitators”。原创 2024-09-30 01:36:11 · 1108 阅读 · 1 评论 -
ROBOTURK:一个通过模仿进行机器人技能学习的众包平台
2018年11月来自斯坦福大学的论文“ROBOTURK: A Crowdsourcing Platform for Robotic Skill Learning through Imitation”。原创 2024-09-30 01:33:04 · 584 阅读 · 0 评论 -
AnyTeleop:基于视觉的通用灵巧机械臂遥操作系统
23年7月来自UCSD和Nvidia的论文“AnyTeleop: A General Vision-Based Dexterous Robot Arm-Hand Teleoperation System”。原创 2024-09-29 01:58:06 · 728 阅读 · 0 评论 -
AirExo:野外学习整臂操作的低成本外骨骼框架
23年9月来自上海交大和上海AI实验室的论文“AirExo: Low-Cost Exoskeletons for Learning Whole-Arm Manipulation in the Wild”。原创 2024-09-29 01:56:37 · 1022 阅读 · 0 评论 -
OPEN TEACH:用于机器人操作的多功能远程操作系统
24年3月来自纽约大学和Meta的论文“OPEN TEACH: A Versatile Teleoperation System for Robotic Manipulation”。原创 2024-09-28 03:08:28 · 743 阅读 · 0 评论 -
采用全身外骨骼座舱 TABLIS的双边人形遥操作系统
20年10月来自东京大学的论文“Bilateral humanoid teleoperation system using whole-body exoskeleton cockpit TABLIS”。原创 2024-09-28 03:04:15 · 426 阅读 · 0 评论 -
一个用于直观遥控拟人机械手的可穿戴上肢外骨骼
23年3月来自中科院沈阳机器人自动化所的论文“A Wearable Upper Limb Exoskeleton for Intuitive Teleoperation of Anthropomorphic Manipulators”。原创 2024-09-28 03:02:45 · 892 阅读 · 0 评论 -
DROID:大规模野外机器人操作数据集
24年3月来自斯坦福和伯克利分校的论文“DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset”。原创 2024-09-28 03:01:42 · 629 阅读 · 0 评论 -
RH20T:用于单样本学习多种技能的综合机器人数据集
23年7月来自上海交大的论文“RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in One-Shot”。原创 2024-09-27 00:11:27 · 766 阅读 · 0 评论 -
交叉扩散:通过自监督学习改进基于扩散的视觉运动策略
24年1月来自纽约州 Stony Brook U 的论文“Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via Self-supervised Learning”。原创 2024-09-27 00:10:10 · 728 阅读 · 0 评论 -
BEHAVIOR-1K:以人为本、具身化的 AI 基准,包含 1,000 个日常活动和逼真的模拟
24年3月来自斯坦福大学、德州奥斯汀分校、UIUC和南加州大学的论文“BEHAVIOR-1K: A Human-Centered, Embodied AI Benchmark with 1,000 Everyday Activities and Realistic Simulation”。原创 2024-09-26 00:20:53 · 739 阅读 · 0 评论 -
InternVid:用于多模态理解和生成的大规模视频文本数据集
24年1月来自上海AI实验室、南京大学、Monash U、香港大学、南洋理工和中科院深圳高等研究院的论文“InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation”。原创 2024-09-26 00:18:45 · 700 阅读 · 0 评论 -
HOI4D:用于类别级人-目标交互的 4D 以自我为中心视图数据集
24年1月来自清华、北大和上海姚期智研究院的更新论文“HOI4D: A 4D Egocentric Dataset for Category-Level Human-Object Interaction”。原创 2024-09-26 00:17:05 · 702 阅读 · 0 评论 -
DRAMA:基于 Mamba 的高效端到端自动驾驶运动规划器
24年8月来自新加坡国立大学和Moovita Pte公司的论文“DRAMA: An Efficient End-to-end Motion Planner for Autonomous Driving with Mamba”。原创 2024-09-25 03:38:31 · 548 阅读 · 0 评论 -
RoboDreamer:学习机器人想象力的组合世界模型
24年4月来自香港科技大学、MIT、UCSD、谷歌、麻省大学和MIT-IBM实验室的论文“RoboDreamer: Learning Compositional World Models for Robot Imagination”。原创 2024-09-25 03:35:47 · 836 阅读 · 0 评论 -
Open AI的视频合成模型Sora是世界仿真器吗?一个通用世界模型综述及其它
24年5月创业公司极佳的论文“Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond”。通用世界模型是实现通用人工智能 (AGI) 的重要途径,是从虚拟环境到决策系统等各种应用的基石。最近,Sora模型的出现因其卓越的模拟能力而引起了广泛关注,呈现出对物理定律的初步理解。原创 2024-05-10 01:38:52 · 132 阅读 · 0 评论 -
探索机器人操作的视觉预训练:数据集、模型和方法
23年8月来自字节、东南大学和清华的论文“Exploring Visual Pre-training for Robot Manipulation: Datasets, Models and Methods”。原创 2024-09-24 00:08:09 · 689 阅读 · 0 评论 -
RoboNet:大规模多机器人学习
20年1月来自 UC Berkeley, Stanford Uni, UPenn, CMU 的论文“RoboNet: Large-Scale Multi-Robot Learning”。原创 2024-09-24 00:05:38 · 983 阅读 · 0 评论 -
代码即策略:具身控制的语言模型程序
23年5月来自谷歌的论文“Code as Policies: Language Model Programs for Embodied Control”。原创 2024-09-23 00:23:57 · 878 阅读 · 0 评论 -
Inner Monologue:通过语言模型规划进行具身推理
22年7月来自谷歌的论文“Inner Monologue: Embodied Reasoning through Planning with Language Models”。原创 2024-09-23 00:21:29 · 965 阅读 · 0 评论 -
LLM-Planner:针对大语言模型具身智体的少样本落地规划
23年3月来自Ohio State U的论文“LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models”。原创 2024-09-22 00:10:23 · 569 阅读 · 0 评论 -
三思而后行:ViLa 揭示GPT-4V 在机器人视觉-语言规划中的强大功能
23年11月来自清华、上海AI实验室和上海姚期智研究院的论文“Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning”。原创 2024-09-22 00:09:02 · 508 阅读 · 0 评论 -
SpatialVLM:赋予视觉-语言模型空间推理能力
24年1月来自谷歌的论文“SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities”。原创 2024-09-22 00:06:55 · 642 阅读 · 0 评论 -
3D 扩散策略:简单 3D 表示进行可泛化视觉运动的策略学习
24年6月来自上海姚期智研究院、上海交大、清华和上海AI实验室的论文“3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations”。原创 2024-09-21 00:13:39 · 689 阅读 · 0 评论 -
Socratic Planner: 用于具身指令跟随的基于查询零样本规划方法
24年4月来自韩国首尔大学的论文“Socratic Planner: Inquiry-Based Zero-Shot Planning for Embodied Instruction Following”。原创 2024-09-21 00:12:41 · 1018 阅读 · 0 评论 -
Open-TeleVision:具有沉浸式主动视觉反馈的远程操作
24年7月来自UCSD和MIT的论文“Open-TeleVision: Teleoperation with Immersive Active Visual Feedback”。原创 2024-09-20 00:03:26 · 644 阅读 · 0 评论 -
HumanPlus:人形机器人对人的跟随和模仿
24年6月来自斯坦福大学的论文“HumanPlus: Humanoid Shadowing and Imitation from Humans“。原创 2024-09-20 00:02:58 · 1110 阅读 · 0 评论 -
视频作为现实世界决策的新语言
24年2月来自谷歌和伯克利分校的论文“Video as the New Language for Real-World Decision Making”。原创 2024-09-19 00:26:52 · 1165 阅读 · 0 评论 -
GELLO:一种通用、低成本、直观的机器人遥控框架
24年7月更新的伯克利分校论文“GELLO: A General, Low-Cost, and Intuitive Teleoperation Framework for Robot Manipulators”。原创 2024-09-19 00:25:23 · 973 阅读 · 0 评论 -
EmbodiedGPT:通过具身的思维链进行视觉-语言预训练
23年9月来自香港大学、上海AI实验室和华为诺亚实验室的论文“EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought”。原创 2024-09-18 00:04:01 · 741 阅读 · 0 评论 -
UniPi:通过文本引导的视频生成去学习通用策略
23年11月来自MIT、谷歌、伯克利分校、乔治亚理工和Alberta大学的论文“Learning Universal Policies via Text-Guided Video Generation”。原创 2024-09-18 00:03:05 · 792 阅读 · 0 评论 -
MT-Opt:大规模持续多任务的机器人强化学习
21年4月来自谷歌的论文“MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale”。原创 2024-09-17 00:27:36 · 942 阅读 · 0 评论 -
BC-Z:利用机器人模仿学习进行零样本任务泛化
22年2月来自谷歌、Everyday Robots、伯克利分校和斯坦福的论文“BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning”。原创 2024-09-17 00:26:22 · 834 阅读 · 0 评论