21、LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding

文章介绍了如何通过官网的算法,将LiDAR数据转化为语言建模问题,利用LLMs的强大推理能力进行3D场景理解,包括3D标注、3D问答等任务。文章详细阐述了实现流程,包括特征提取、VAT设计以及通过多阶段训练增强模型的高级指令处理能力。

简介

官网
在这里插入图片描述
 将原始LiDAR数据作为输入,利用LLMs卓越的推理能力,来获得对室外3D场景的全面了解,将3D户外场景认知重构为语言建模问题,如3D captioning, 3D grounding, 3D question answering。

实现流程

在这里插入图片描述
 给定LiDAR输入 L ∈ R n × 3 L \in \R^{n \times 3} LRn×3,n 是点的数量,使用 VoxelNet 获取 LiDAR Feature,考虑到计算成本,沿着 z轴展平特征以生成鸟瞰图(BEV) Feature F v ∈ R c × h × w F_v \in \R^{c \times h \times w} F

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值