【2025具身智能大模型·系列11】SpatialLM：群核科技开源空间理解多模态，赋予机器超强空间认知，登顶HuggingFace

寻道AI小兵

于 2025-04-27 15:00:00 发布

阅读量1.7k

点赞数 87

分类专栏： AI大模型 - 具身智能前沿文章标签：开源人工智能 3d 科技 AIGC

本文链接：https://blog.csdn.net/xiaobing259/article/details/147549392

版权

AI大模型 - 具身智能前沿专栏收录该内容

11 篇文章

订阅专栏

系列篇章💥

No.	文章
1	【2025具身智能大模型·系列1】SpatialVLA：上海 AI Lab 联合上科大等推出的空间具身通用操作模型，赋能机器人3D空间理解
2	【2025具身智能大模型·系列2】UniAct：清华大学、商汤等联合发布具身智能框架，用通用动作空间打破机器人控制瓶颈！
3	【2025具身智能大模型·系列3】斯坦福HumanPlus：人形机器人实时控制与模仿学习的完美结合
4	【2025具身智能大模型·系列4】GR00T N1 ：英伟达推出全球首个开源通用人形机器人基础模型
5	【2025具身智能大模型·系列5】OmniH2O：卡内基梅隆与上海交大联手打造的全能人形机器人系统
6	【2025具身智能大模型·系列6】OpenVLA：斯坦福开源的视觉语言动作大模型，引领机器人技术新突破
7	【2025具身智能大模型·系列7】HugWBC：上海交通大学与上海AI Lab打造的通用人形机器人控制器
8	【2025具身智能大模型·系列8】LightPlanner：中科视语开源的轻量化具身推理大模型，赋能机器人高效决策
9	【2025具身智能大模型·系列9】RoboMamba：北京大学推出的高效机器人多模态大模型，助力机器人推理与操作
10	【2025具身智能大模型·系列10】RDT-1B：清华发布双臂机器人模型，零样本泛化能力震撼业界
11	【2025具身智能大模型·系列11】SpatialLM：群核科技开源空间理解多模态，赋予机器超强空间认知，登顶HuggingFace

前言

在人工智能快速发展的当下，空间理解能力成为推动具身智能、虚拟现实等领域进步的关键因素。群核科技开源的SpatialLM空间理解多模态模型，为相关研究与应用带来了新的突破。今天，就让我们深入探究SpatialLM的奥秘。

一、项目概述

SpatialLM是群核科技开源的一款极具创新性的空间理解多模态模型，其目标是赋予机器人和智能系统类似人类的空间认知能力。它能对普通手机拍摄的视频进行深度分析，重建出细致入微的3D场景布局，精确标注房间结构、家具摆放、通道宽度等关键信息。
在这里插入图片描述

该模型基于大语言模型框架构建，巧妙融合点云重建和结构化表示技术，将视频中的场景转化为结构化的3D模型，为具身智能训练搭建起高效的基础框架，在多个领域有着广阔的应用前景。

二、核心功能

视频生成3D场景
SpatialLM具备强大的视频解析能力，它逐帧分析普通手机拍摄的视频，通过复杂的算法重建出场景的三维结构，精准还原房间布局、家具位置以及通道宽度等信息，让2D视频“变身”为生动的3D场景。
空间认知与推理：
突破传统大语言模型在物理世界几何与空间关系理解上的局限，SpatialLM赋予机器类人般的空间认知和解析能力。它不仅能理解场景中物体的语义，还能生成结构化3D场景布局，标注物体的三维坐标、尺寸参数和类别信息，实现对空间的深度理解。
低成本数据采集：
数据采集是许多研究和应用面临的难题，SpatialLM很好地解决了这一问题。它无需复杂的传感器或智能穿戴设备，普通手机或相机拍摄的视频就能作为数据输入，极大降低了开发者的数据采集门槛，让更多企业和研究者能够轻松开展相关研究。
具身智能训练：
在具身智能领域，SpatialLM提供了基础的空间理解训练框架。企业可针对特定场景对模型进行微调，助力机器人在复杂环境中实现导航、避障和任务执行。结合群核科技的SpatialVerse空间智能训练平台，机器人能在仿真环境中学习技能，形成从认知到行动的完整闭环。
虚拟场景生成：
SpatialLM能够将现实世界的数据转化为虚拟环境中的丰富场景。借助其合成数据引擎，可泛化生成亿万级新场景，为虚拟现实、增强现实和游戏开发等领域提供强大的数据支持。

三、技术原理

视频输入与点云重建
利用MASt3R-SLAM技术处理输入的RGB视频，将视频拆解为帧后，提取物体的细节空间点，计算其深度和位置，生成高密度的3D点云模型，为后续处理奠定基础。
点云编码与特征提取
通过编码器将点云数据转化为紧凑的特征向量，在这一过程中保留场景中物体的关键几何和语义信息，方便后续模型进行处理和理解。
大语言模型生成场景代码
借助大语言模型（LLM）的强大能力，将点云特征转化为结构化的场景代码，这些代码包含空间结构的坐标和尺寸，并标注了物体的语义边界框，例如“沙发 – 长1.8米 – 距墙0.5米”。
结构化3D布局生成
将场景代码进一步转换为结构化的3D场景布局，明确标注出每个物体的三维坐标、尺寸参数和类别信息，最终可被可视化工具还原为可交互的3D场景。
物理规则嵌入
为确保生成的3D场景符合物理规则，SpatialLM内置了“家具不能悬空”“通道宽度≥0.8米”等物理常识，提升场景的真实性和实用性。

四、应用场景

具身智能训练：助力机器人在虚拟环境中进行障碍规避、物体抓取等任务的训练，提升机器人在复杂环境中的适应能力和任务执行能力。

自动导航：在机器人导航任务中，SpatialLM实时解析环境中的空间信息，帮助机器人避开障碍物并规划最优路径，实现高效自主导航。

AR/VR领域：能够快速将现实世界的场景转化为虚拟环境中的丰富场景，为增强现实和虚拟现实应用的开发提供有力支持，提升用户体验。

建筑设计与规划：分析建筑物的3D点云数据，识别墙体、门窗等结构信息，帮助建筑设计和规划人员更高效地进行设计工作，提高设计效率和质量。

教育与培训：教育工作者可利用SpatialLM开发教育软件，帮助学生学习3D建模和空间视觉能力。通过直观的3D场景生成和解析，让学生更好地理解空间关系和几何概念。

五、快速使用

1. 环境准备

在开始使用SpatialLM之前，需要确保你的环境满足以下要求：

Python 3.11
Pytorch 2.4.1
CUDA Version 12.4

按照以下步骤设置环境：

# 克隆仓库
git clone https://github.com/manycore-research/SpatialLM.git
cd SpatialLM

# 创建一个包含CUDA 12.4的conda环境
conda create -n spatiallm python=3.11
conda activate spatiallm
conda install -y nvidia/label/cuda-12.4.0::cuda-toolkit conda-forge::sparsehash

# 使用poetry安装依赖
pip install poetry && poetry config virtualenvs.create false --local
poetry install
poe install-torchsparse # 构建torchsparse的wheel文件需要一些时间

2. 下载示例点云数据

可以从Hugging Face下载一个示例点云数据，该数据是从RGB视频使用MASt3R-SLAM重建得到的。

huggingface-cli download manycore-research/SpatialLM-Testset pcd/scene0000_00.ply --repo-type dataset --local-dir .

3. 运行推理

在当前版本的SpatialLM中，输入的点云被认为是轴对齐的，其中z轴是向上的轴。运行以下命令进行推理：

python inference.py --point_cloud pcd/scene0000_00.ply --output scene0000_00.txt --model_path manycore-research/SpatialLM-Llama-1B

此命令将处理指定的点云文件，并将推理结果保存到scene0000_00.txt文件中。

4. 可视化结果

使用rerun工具可视化点云和预测的结构化3D布局输出：

# 将预测的布局转换为Rerun格式
python visualize.py --point_cloud pcd/scene0000_00.ply --layout scene0000_00.txt --save scene0000_00.rrd

# 可视化点云和预测的布局
rerun scene0000_00.rrd

通过以上步骤，你可以快速体验SpatialLM处理3D点云数据并生成结构化3D场景理解输出的能力。

六、总结

SpatialLM作为群核科技开源的空间理解多模态模型，凭借其强大的功能、创新的技术原理和广泛的应用场景，为人工智能在空间理解领域的发展注入了新的活力。无论是对具身智能感兴趣的研究者，还是从事虚拟现实、建筑设计等行业的从业者，都值得深入研究和应用SpatialLM，共同探索人工智能的无限可能。

项目地址：https://github.com/manycore-research/SpatialLM

在这里插入图片描述

😎 作者介绍：资深程序老猿，从业10年+、互联网系统架构师，目前专注于AIGC的探索（CSDN博客之星|AIGC领域优质创作者）
📖专属社群：欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码，回复‘入群’ 即刻上车，获取邀请链接。
💘领取三大专属福利：1️⃣免费赠送AI+编程📚500本，2️⃣AI技术教程副业资料1套，3️⃣DeepSeek资料教程1套🔥（限前500人）
如果文章内容对您有所触动，别忘了点赞、⭐关注，收藏！加入我们，一起携手同行AI的探索之旅，开启智能时代的大门！