SpatialLM 一种 3D 开源大型语言模型(小参数模型)

图片来自官方

SpatialLM是一个用于处理三维点云数据并生成结构化三维场景理解输出的大型语言模型,可识别墙体、门、窗等建筑元素及带有语义类别的方向物体边框。它能处理来自不同来源的点云数据,如单目视频序列、RGBD图像和LiDAR传感器等。以下是该项目的详细信息:
项目概述

项目名称:SpatialLM
GitHub地址:GitHub - manycore-research/SpatialLM
Hugging Face数据集:SpatialLM-Testset

SpatialLM模型

SpatialLM提供了两个模型:

SpatialLM-Llama-1B:基于Llama3.2-1B-Instruct,可在HuggingFace下载。
SpatialLM-Qwen-0.5B:基于Qwen-2.5系列,可在HuggingFace下载。

测试集

SpatialLM-Testset包含107个预处理的点云,由RGB视频使用MASt3R-SLAM重建,可在HuggingFace Datasets下载。

基准结果

在SpatialLM-Testset上的基准结果如下表所示:
在这里插入图片描述

许可证

SpatialLM-Llama-1B:基于Llama3.2许可。
SpatialLM-Qwen-0.5B:基于Apache 2.0许可。
所有模型:基于SceneScript点云编码器(CC-BY-NC-4.0许可)和TorchSparse(MIT许可)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值