具身智能
环境理解 OpenCV 目标检测 目标分割 自动驾驶
智能交互 语音识别(大语言模型GPT)
认知推理 大语言
规划执行 系统化
PyBullet 仿真环境
Navigation
使用MaskRCNN进行目标检测和像素分割
使用MiDaS单目深度估计进行RGBD传感器数据修复???
分割后的Semantic Map进行环境建图 导航
使用Super GLUE进行图像和图像匹配
特征点匹配、搜到图像 然后去导航
使用CLIP进行文本和图像匹配
使用Mistral 7B 从复杂指令抽提Object Category
基础技术路线
环境理解 检测、分割 多模态Grounding
SAM、SAM3D Open-Voc Dection Open-Voc Dection in Point Cloud
多模态Grounding 实现对图片的理解 能够实现像素级别的识别
多模态大模型 多模态、多任务赋能LLM具🈶更通用的场景理解能力
数据引导 视频学习、硬件在环、生成式仿真
机器人数据集较少;视频数据去引导;
DexCap slam手指末端在3D环境 逆运动学
HIRO Hand 灵巧手 搜集的数据更加全
heavy hardware VR+VR手套(特斯拉、Sanctuary AI)
手套可以把手指的运动映射到指关节上
动作执行 生成式模仿学习 Affordance 大模型问答 大模型Prompt规划
生成式模仿学习
language corrections Language矫正
世界模型
3D VLA
LAPO
可以做一个模糊预测来设计控制器来选择最优action
challenge
大脑->
小脑->灵巧操作能力有待提升
数据获取能力