具身智能入门指南

Embodied AI(具身智能)入门的路径以及高质量信息的总结,期望是按照路线走完后,新手可以快速建立关于这个领域的认知,希望能帮助到各位入门具身智能的朋友,欢迎点Star、分享与提PR🌟~
【 Embodied-AI-Guide, Latest Update: Dec 29, 2024 】

Contents - 目录

1. Start Up - 从这里开始

具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。

How - 如何食用这份指南

我们希望的是帮助新人快速建立领域认知,所以设计理念是:简要介绍目前具身智能涉及到的主要技术,让大家知道不同的技术能够解决什么问题,未来想要深入发展的时候能够有头绪。

About us - 关于我们

我们是一个由具身初学者组成的团队,希望能够通过我们自己的学习经验,为后来者提供一些帮助,加快具身智能的普及。欢迎更多朋友加入我们的项目,也很欢迎交友、学术合作,有任何问题,可以联系邮箱chentianxing2002@gmail.com

🦉Contributors陈天行 (25' 港大PhD)彭时佳 (深大本科生)邹誉德 (25' 上交-浦江实验室联培PhD)陈思翔 (25' 北大PhD)叶雯 (25' 中科院自所PhD)陈攒鑫 (深大本科生)王冠锟 (港中文-华为联培PhD)吴志杰 (港中文PhD)朱宇飞 (25' 上科大Ms).

2. Useful Info - 有利于搭建认知的资料

  • 具身智能基础技术路线-YunlongDong [2]: PDFbilibili

  • 社交媒体:

    • 可以关注的公众号: 石麻日记 (超高质量!!!), 机器之心, 新智元, 量子位, Xbot具身知识库, 具身智能之心, 自动驾驶之心, 3D视觉工坊, 将门创投, RLCN强化学习研究, CVHub

    • AI领域值得关注的博主列表 [3]: zhihu

  • Robotics实验室总结 [4]: zhihu_1zhihu_2

  • 具身智能会投稿的较高质量会议与期刊:RSS, TRO, Science Robotics, IROS, ICRA, ICCV, ECCV, ICRA, AAAI, ICML, CVPR, NIPS, ICLR, IJRR, ACL等。

  • 斯坦福机器人学导论:website

  • 共建全网最全具身智能知识库 [6]: website

  • 社区:

    • DeepTimber Robotics Innovations Community, 深木科研交流社区: website
    • 宇树具身智能社群: website
    • Simulately: Handy information and resources for physics simulators for robot learning research: website
    • DeepTimber-地瓜机器人社区: website
    • HuggingFace LeRobot (Europe, check the Discord): website
    • K-scale labs (US, check the Discord): website

3. Algorithm - 算法

3.1 Common Tools - 常用工具

这个部分是关于具身中常用技巧的分享

  • 点云降采样: zhihu, 包括随机降采样、均匀降采样、最远点降采样、法线空间降采样等,需要了解清楚每一种降采样的优劣,这个技巧的选择对于3D应用来说是至关重要的。
  • 手眼标定:github,手眼标定用于确定相机和机械臂之间以及相机与相机之间的相对位置,大部分Project的开始都需要做一次手眼标定,分为眼在手上和眼在手外。

3.2 Foundation Models - 基础模型

以下是部分具身智能中常用的基础模型, 计算机视觉中发展的非常好的工具可以直接赋能具身智能的下游应用。

  • CLIP: website, 来自OpenAI的研究, 最基本的应用是可以计算图像与语言描述的相似度, 中间层的视觉特征对各种下游应用非常有帮助。

  • DINO: DINO repoDINO-v2 repo, 来自Meta的研究, 可以提供图像的高层视觉特征, 对corresponding之类的信息提取非常有帮助, 比如不同个体之间的鼻子都有类似的几何特征, 这个时候不同图像中关于不同鼻子的视觉特征值可能是近似的。

  • SAM: website, 来自Meta的研究, 可以基于提示点或者框, 对图像的物体进行分割。

  • SAM2: website, 来自Meta的研究, SAM的升级版, 可以在视频层面持续对物体进行分割追踪。

  • Grounding-DINO: repo在线尝试这个DINO与上面Meta的DINO没有关系, 是一个由IDEA研究院(做了很多不错开源项目的机构)开发集成的图像目标检测的框架,很多时候需要对目标物体进行检测的时候可以考虑使用。

  • Grounded-SAM: repo, 比Grounding-DINO多了一个分割功能, 也就是支持检测后分割, 也有很多下游应用, 具体可以翻一下README。

  • FoundationPose: website, 来自Nvidia的研究, 物体姿态追踪模型。

  • Stable Diffusion: repowebsite, 22年的文生图模型, 现在虽然不是SOTA了, 但是依然可以作为不错的应用, 例如中间层特征支持下游应用、生成Goal Image (目标状态) 等等。

  • Depth Anything (v1 & v2): reporepo, 港大和字节的研究工作,单目深度估计模型。

  • Point Transformer (v3): repo, 点云特征提取的工作。

  • RDT-1B: website, 清华朱军老师团队的工作, 机器人双臂操作的基础模型, 具有强大的few-shot能力。

  • SigLIP: huggingface, 类似CLIP。

3.3 Robot Learning - 机器人学习

机器人学习 Robot Learning 的发展: zhihu

3.3.1 Reinforcement Learning - 强化学习

  • 推荐直接跟着李宏毅老师一套走: bilibili上课+刷蘑菇书巩固+gymnasium动手实践, 重点了解一下PPO。
    • 台湾大学李宏毅公开课: bilibili
    • EasyRL - 蘑菇书: website, 基本是配套李宏毅老师的课程
    • 实践gymnasium,可以尝试一下把玩一下登月着陆等经典强化学习场景,思考+动手,观察阶段agent的表现并分析,有助于深入理解强化学习

3.3.2 Imitation Learning - 模仿学习

  • 《模仿学习简洁教程》 - 南京大学LAMDA: PDF
  • Supervised Policy Learning for Real Robots, RSS 2024 Workshop 教程:真实机器人的监督策略学习, bilibili

3.4 LLM for Robotics - 大模型在机器人学中的应用

  • Robotics+LLM系列通过大语言模型控制机器人 [2]: zhihu
  • Embodied Agent wiki: website
  • Lilian Weng 个人博客 - AI Agent 系统综述 [5]: 中文: website 英文: website

3.5 Computer Vision - 计算机视觉

CS231n (斯坦福计算机视觉课程): website, 该课程对深度学习在计算机视觉的应用有较为全面的介绍。因为已经在具体实现某个论文的算法了,所以这个阶段可以不用做作业,只需要看课程视频和课程讲义即可。

3.5.1 2D Vision - 二维视觉

  • 2D Vision 领域的经典代表作
    • CNN (卷积神经网络): link
    • ResNet (深度残差网络): bilibili
    • ViT (第一个将Transformer用在视觉领域): bilibili
    • Swin Transformer (披着Transformer皮的CNN): bilibili
    • 对比学习论文综述: bilibili
  • 以判别式模型为主的感知任务,比如识别、分类、分割、检测等等,看看即可,现在继续刷点意义不大
  • 生成式模型
    • 自回归综述: PDF
    • 扩散模型综述: PDF
    • 如果对扩散模型的理论推导感兴趣,可以看苏剑林老师的博客 - 生成扩散模型漫谈(推导非常清楚): link

3.5.2 3D Vision - 三维视觉

第一阶段:学习最基础的3DV知识,追求广度,了解一些基础的概念和算法

  • 三维视觉导论 - Andreas Geiger: website (重点是完成课程里面的作业)
  • GAMES203 - 三维重建和理解: bilibili

第二阶段:细分方向,追求深度,上手一些项目

  • 如果对传统图形学感兴趣,可以看下面两门(闫令琪老师开的课,讲得特别好):
    • GAMES101 - 现代计算机图形学入门: website
    • GAMES202 - 高质量实时渲染: website
  • 如果对motion synthesis/computer animation感兴趣,可以看:
    • GAMES105 - 计算机角色动画基础: website
  • 如果对三维重建感兴趣,可以看下面两门:
  • 三维预训练最新综述:
    • Advances in 3D pre-training and downstream tasks: a survey: PDF
  • 3DGS在具身上的综述:
    • 3D Gaussian Splatting in Robotics: A Survey: PDF
  • 三维生成的一些经典论文:
    • Diffusion Model for 2D/3D Generation 相关论文分类: link
    • 3D生成相关论文-2024: link

3.5.3 4D Vision - 四维视觉

  • 视频理解
  • 4D 生成
    • 视频生成博客(英文): link
    • 4D 生成的论文列表: website

3.6 Embodied AI for X - 具身智能+X

3.6.1 Embodied AI for Healthcare - 具身智能+医疗

3.6.1.1 MLLM for Medical - 多模态大语言模型在医学中的应用

4. Hardware - 硬件

具身智能硬件方面涵盖多个技术栈,如嵌入式软硬件设计,机械设计,机器人硬件系统设计,这部分知识比较繁杂,适合想要专注此方向的人

关于硬件部分的学习,最好从实践出发!

4.1 Embedded - 嵌入式

  • 嵌入式学习路线:CSDN
  • 51单片机:BiliBili经典江科大自动协出品
  • Stm32单片机:BiliBili经典江科大自动协出品
  • Stm32电机驱动:BiliBili野火
  • 野火Stm32标准库:BiliBili野火
  • 正点原子Stm32:BiliBili正点原子
  • 韦东山嵌入式Linux:BiliBili韦东山

4.2 Mechanical design - 机械设计

  • SoildWorks教学:BiliBili
  • URDF生成:CSDN,指导如何通过SolidWorks装配体出发生成机器人URDF文件。

4.3 机器人系统设计

  • 《机器人学简介》, 来自[2]做的高质量教材: PDF

  • 《机器人系统教材》: website

4.4 Control - 控制学

  • ROS基础:

  • 基础控制理论:

    • PID控制:CSDN

    • 彻底搞懂阻抗控制、导纳控制、力位混合控制: CSDN

    • 机械臂运动学

    想要快速了解什么是IK FK的同学可以看这个7分钟的短片,可以对此建立一个粗略的认知:BiliBili
    较为简单的过一遍IK和FK的原理可以看这个:CSDN

    • IK (Inverse Kinematics) 逆运动学

    • FK (Forward Kinematics) 正运动学

    • 常用的库

      • cuRobo:cuRobocuRobo是Nvidia的一个利用 CUDA 加速的机器人库,提供了一套高效的机器人算法,主要通过并行计算显著提升性能,包括但不限于IK,碰撞检测,路径规划等。
      • IKFast:IKFast,经典IK库。
      • mplib:mplib,Maniskill Benchmark以及Sapien仿真平台的IK库。
  • ROS多传感器时间戳同步:website

  • 动手实践LeRobot SO-100:website

4.5 Sensors - 传感器

Coming Soon !

4.6 Companies - 公司

公司主营产品Others
松灵AgileXpipper机械臂
移动底盘
面向教育科研
宇树UnitreeGo2机器狗
通用人形H1
通用人形G1
许多产出使用宇树的机器人作为硬件基础
方舟无限ARXX5机械臂
X7双臂平台
R5机械臂
适合复现很多经典的工作,eg. aloha
RoboTwin松灵底盘+方舟臂
波士顿动力spot机器狗
Atlas通用人形
具身智能本体制造商,从液压驱动转向电机驱动
灵心巧手
灵巧智能DexRobotDexhand 021灵巧手19自由度量产灵巧手
银河通用已完成多轮融资
星海图GalaxeaA1机械臂
World Labs专注于空间智能,致力于打造大型世界模型(LWM),以感知、生成并与 3D 世界进行交互。 相关介绍
星动纪元Star1人形
XHAND1灵巧手
加速进化Booster T1人形
青龙机器人
科技云深处绝影X30四足机器人
Dr.01人形机器人
松应科技)具身智能仿真平台供应商
光轮智能具身智能数据平台
智元机器人A2人形机器人
A2-D数据采集机器人(轮式人形)
Nvidia具身智能基建公司
求之科技
穹彻智能
优必选
具身风暴落地具身智能通用按摩机器人

5. Software - 软件

5.1 Benchmarks & Simulators - 基准 & 仿真器

具身智能常用benchmark总结 [1]: zhihu
常见仿真器wiki: wiki

仿真器基准
IsaacSimBEHAVIOR-1K(可跨平台)+omniGibson(工具链)
ARNOID
MuJoCorobosuite+robomimic(工具链)
LIBERO
MetaWorld
Gymnasium-Robotics(Fetch; Shadow Dexterous Hand; Maze; Adroit Hand; Franka Kitchen; MaMuJoCo)
RoboCasa
RoboHive
SapienManiSkill
RoboTwin
CoppeliaSimRLBench
PerAct2
COLOSSEUM
PyBulletCalvin
Ravens
VimaBench
Genesis

6. Paper Lists - 论文列表

  • Awesome Humanoid Robot Learning - Yanjie Ze: repo
  • Paper Reading List - DeepTimber Community: repo
  • Paper List - Yanjie Ze: repo
  • Paper List For EmbodiedAI - Tianxing Chen: repo
  • SOTA Paper Rating - Weiyang Jin: website
  • Awesome-LLM-Robotics: A repo contains a curative list of papers using Large Language/Multi-Modal Models for Robotics/RL: website

7. Acknowledgement - 致谢

本文转载/引用了一些博主的文章,我们对他们的知识分享表示感谢,引用列表如下: [1] 知乎 穆尧, [2] 知乎 东林钟声, Github Yunlong Dong, [3] 知乎 强化学徒, [4] 知乎 Biang哥, [5] OpenAI Lilian Weng, [6] B站 木木具身, [7] Github Zhuoheng Li, [8] 知乎 Flood Sung, [9] Github Sida Peng

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值