字节跳动CVPR 2023论文精选来啦(内含一批图像生成新研究)

计算机视觉领域三大顶会之一的 CVPR 今年已经开奖啦。

今年的 CVPR 将于六月在加拿大温哥华举办,和往年一样,字节跳动技术团队的同学们收获了不少中选论文,覆盖文本生成图像、语义分割、目标检测、自监督学习等多个领域,其中不少成果在所属领域达到了 SOTA(当前最高水平)。

一起来看看这些成果吧~

一个简洁的文本监督语义分割框架

A Simple Framework for Text-Supervised Semantic Segmentation

这项工作由字节跳动商业化技术团队与上海交通大学、早稻田大学合作完成。

文本监督语义分割是一个新颖的研究课题,它可以通过图像-文本对比学习的方式获得语义分割结果。然而,该领域之前的方法使用了专门设计的网络结构(而非通用的主干网络)。

本文表明了最基本的图文预训练模型 CLIP 本身就具有文本监督语义分割能力。首先,我们揭示了原版 CLIP 模型在定位和分割上的缺失,因为它的优化是由密集对齐的视觉和语言特征驱动的。其次,我们提出局部对齐(LoDA)的学习方式来解决这个问题,让 CLIP 的优化由稀疏的局部表示进行驱动。最后,我们提出了一个简单的分割框架(SimSeg)。LoDA 和 SimSeg 共同改进了 CLIP,从而得到精细准确的语义分割结果。

我们的方法在 PASCAL VOC 2012、PASCAL Context 和 COCO 数据集上的表现明显优于之前最先进的方法

Project page:

github.com/muyangyi/SimSeg

Clover: 统一的视频-文本对齐及融合预训练模型

Clover: Towards A Unified Video-Language Alignment and Fusion Model

这项工作由字节跳动智能创作团队与厦门大学合作共同完成。

适用于多种视频理解下游任务(如文本检索视频、视频问答等)的视频-文本预训练模型是一个重要研究问题。近期的主要研究工作都采用单模态特征编码器上堆叠一个跨模态特征编码模块的框架,并通过对比式预训练任务进行模型训练。这些方案具有较好的通用性,然而,作者研究发现这些模型不能同时较好地对齐各模态特征且对跨模态特征较好地融合。

因此,作者团队提出了 Clover 视频文本预训练方案来进行优化。沿用单模态特征编码器+跨模态特征编码模块的框架,本文在 Clover 中引入了一种三模态对齐的预训练任务,即将视频模态,文本模态以及视频文本融合模态在特征空间进行对齐。作者借助对训练样本的语义 masking 策略来增强三模态对齐训练的效果,同时引入了 pair-wise ranking loss 来辅助更精细的 pair-wise 特征对齐。此外,Masking Language Modeling 的训练思想被用于对跨模态特征融合模块的训练。

通过一系列视频理解下游任务上的效果评估,Clover 视频-文本预训练模型在 DiDeMo、MSRVTT 和 LSMDC 三个文本-视频检索任务上取得了 zero-shot 及 finetune performance 的最佳表现;在 8 个主流的视频问答 benchmark 上也达到了新的 state-of-the-art

arXiv:

https://arxiv.org/pdf/2207.07885.pdf

Github:

https://github.com/LeeYN-43/Clover

FreeSeg:统一、通用、开域的图像分割

FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation

这篇工作由字节跳动智能创作团队和中科院自动化所共同完成。

最近,开域图像分割可以实现任意类别的基于文本的描述的分割,将分割系统推广到更通用的应用场景。然而,现有的方法致力于为特定的分割任务设计专门的架构或参数。这些定制的设计范式导致各种分割任务之间的碎片化,从而阻碍了分割模型的一致性。

因此,在本文中,作者团队提出了通用框架 FreeSeg,用于实现统一、通用、开域的图像分割。FreeSeg 通过 One-Shot Learning 优化了一个 All-in-One 网络,并采用相同的架构和参数在推理过程中无缝处理不同的分割任务,包括语义,实例和全景分割。

此外,自适应提示学习有助于统一模型捕获任务感知和类别敏感概念,提高了多任务和多种场景中的模型鲁棒性。

在 COCO、ADE 等数据集上的广泛实验结果表明,FreeSeg 在三个开域分割任务的性能和泛化方面实现了新的最先进的结果

arXiv:

https://arxiv.org/abs/2303.17225

project page:

https://FreeSeg.github.io

InstMove:以目标为中心的视频分割的实例运动

InstMove: Instance Motion for Object-centric Video Segmentation

这篇工作由字节跳动商业化技术团队与约翰霍普金斯大学、华中科技大学合作完成。

这篇论文主要研究如何在以物体为中心的视频分割任务(包括 VIS、VOS、MOTS)中使用物体运动信息。

现有的视频分割算法通常依赖目标的外观特征进行跟踪和分割,对于被遮挡或快速移动的物体十分敏感。物体的运动信息可用于解决这个问题,但之前基于光流的运动模型在物体遮挡或快速移动时表现不佳,而常用于 MOT 任务中的恒速或卡尔曼滤波模型过于简化了物体的运动,忽略了物体的形状和形变信息。

为此,作者提出了使用 InstMove,一个基于 memory bank 的实例级别(instance-level)运动预测模型来预测目标对象的位置和形状。这个运动预测模型可以直接插入大部分实例级别的视频分割任务,帮助已有视频分割模型获得更好的表现,尤其是在遮挡和快速运动的场景下。

实验证明,在 VIS、VOS、MOTS 三个下游视频分割任务的五个数据集上,将 InstMove 插入到现有 SOTA 模型可以进一步带来 1~5 个点的提升

arXiv:

https://arxiv.org/abs/2303.08132

code:

https://github.com/wjf5203/VNext

文本驱动的开放词汇三维场景理解

Language-driven Open-Vocabulary 3D Scene Understanding

这篇工作由字节跳动商业化技术团队与香港大学 CVMI Lab 合作完成。

开放词汇三维场景理解旨在识别未标注的新颖类别。目前 2D 开放词汇检测已经有成功的方法,但是他们都依赖爬取互联网上海量成对的图片和文字进行训练

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值