Paper reading: Joint Representation Learning for Text and 3D Point Cloud

视觉-语言预训练大模型(如CLIP)已经显示出,能够从语言监督信息中提升视觉模型。但是由于3D-文本对获取的困难性和3D数据结构的不规则性,3D点云-文本的联合表示学习依然没有得到很好地研究。因此,提出一个Text4Point框架来构建语言引导的3D点云模型。关键的思路是利用2D图像作为一个桥梁,连接点云和语言两种不同的模态数据。Text4Point框架遵循预训练和fine-tuning的思路。在预训练阶段,基于RGB-D数据简历图像和点云之间的对应关系,利用对比学习来对齐图像和段云表示。和CLIP模型中已对齐的图像-文本特征图,可以把点云特征和文本嵌入做一个隐形的对齐。提出一个文本查询模块,通过查询文本嵌入和点云特征,把语言信息整合到3D表示学习中。在fine-tuning阶段,利用没有二维图像的标签集的语言指导,模型学习该模型学习特定于任务的 3D 表示。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值