SpatialLM 一种 3D 开源大型语言模型（小参数模型）-CSDN博客

本文链接：https://blog.csdn.net/weixin_52582710/article/details/146447878

图片来自官方

SpatialLM是一个用于处理三维点云数据并生成结构化三维场景理解输出的大型语言模型，可识别墙体、门、窗等建筑元素及带有语义类别的方向物体边框。它能处理来自不同来源的点云数据，如单目视频序列、RGBD图像和LiDAR传感器等。以下是该项目的详细信息：
项目概述

项目名称：SpatialLM
GitHub地址：GitHub - manycore-research/SpatialLM
Hugging Face数据集：SpatialLM-Testset

SpatialLM模型

SpatialLM提供了两个模型：

SpatialLM-Llama-1B：基于Llama3.2-1B-Instruct，可在HuggingFace下载。
SpatialLM-Qwen-0.5B：基于Qwen-2.5系列，可在HuggingFace下载。

SpatialLM-Testset包含107个预处理的点云，由RGB视频使用MASt3R-SLAM重建，可在HuggingFace Datasets下载。

在SpatialLM-Testset上的基准结果如下表所示：
在这里插入图片描述

SpatialLM-Llama-1B：基于Llama3.2许可。
SpatialLM-Qwen-0.5B：基于Apache 2.0许可。
所有模型：基于SceneScript点云编码器（CC-BY-NC-4.0许可）和TorchSparse（MIT许可）。