SpatialLM是一个用于处理三维点云数据并生成结构化三维场景理解输出的大型语言模型,可识别墙体、门、窗等建筑元素及带有语义类别的方向物体边框。它能处理来自不同来源的点云数据,如单目视频序列、RGBD图像和LiDAR传感器等。以下是该项目的详细信息:
项目概述
项目名称:SpatialLM
GitHub地址:GitHub - manycore-research/SpatialLM
Hugging Face数据集:SpatialLM-Testset
SpatialLM模型
SpatialLM提供了两个模型:
SpatialLM-Llama-1B:基于Llama3.2-1B-Instruct,可在HuggingFace下载。
SpatialLM-Qwen-0.5B:基于Qwen-2.5系列,可在HuggingFace下载。
测试集
SpatialLM-Testset包含107个预处理的点云,由RGB视频使用MASt3R-SLAM重建,可在HuggingFace Datasets下载。
基准结果
在SpatialLM-Testset上的基准结果如下表所示:
许可证
SpatialLM-Llama-1B:基于Llama3.2许可。
SpatialLM-Qwen-0.5B:基于Apache 2.0许可。
所有模型:基于SceneScript点云编码器(CC-BY-NC-4.0许可)和TorchSparse(MIT许可)。