字节跳动CVPR 2023论文精选来啦（内含一批图像生成新研究）

字节跳动技术范儿

已于 2023-04-12 11:50:56 修改

阅读量4.9k

点赞数 4

文章标签：深度学习计算机视觉人工智能 CVPR

于 2023-04-04 19:09:40 首次发布

本文链接：https://blog.csdn.net/weixin_47098359/article/details/129959700

版权

计算机视觉领域三大顶会之一的 CVPR 今年已经开奖啦。

今年的 CVPR 将于六月在加拿大温哥华举办，和往年一样，字节跳动技术团队的同学们收获了不少中选论文，覆盖文本生成图像、语义分割、目标检测、自监督学习等多个领域，其中不少成果在所属领域达到了 SOTA（当前最高水平）。

一起来看看这些成果吧~

一个简洁的文本监督语义分割框架

A Simple Framework for Text-Supervised Semantic Segmentation

这项工作由字节跳动商业化技术团队与上海交通大学、早稻田大学合作完成。

文本监督语义分割是一个新颖的研究课题，它可以通过图像-文本对比学习的方式获得语义分割结果。然而，该领域之前的方法使用了专门设计的网络结构（而非通用的主干网络）。

本文表明了最基本的图文预训练模型 CLIP 本身就具有文本监督语义分割能力。首先，我们揭示了原版 CLIP 模型在定位和分割上的缺失，因为它的优化是由密集对齐的视觉和语言特征驱动的。其次，我们提出局部对齐（LoDA）的学习方式来解决这个问题，让 CLIP 的优化由稀疏的局部表示进行驱动。最后，我们提出了一个简单的分割框架（SimSeg）。LoDA 和 SimSeg 共同改进了 CLIP，从而得到精细准确的语义分割结果。

我们的方法在 PASCAL VOC 2012、PASCAL Context 和 COCO 数据集上的表现明显优于之前最先进的方法。

Project page:

github.com/muyangyi/SimSeg

Clover: 统一的视频-文本对齐及融合预训练模型

Clover: Towards A Unified Video-Language Alignment and Fusion Model

这项工作由字节跳动智能创作团队与厦门大学合作共同完成。

适用于多种视频理解下游任务（如文本检索视频、视频问答等）的视频-文本预训练模型是一个重要研究问题。近期的主要研究工作都采用单模态特征编码器上堆叠一个跨模态特征编码模块的框架，并通过对比式预训练任务进行模型训练。这些方案具有较好的通用性，然而，作者研究发现这些模型不能同时较好地对齐各模态特征且对跨模态特征较好地融合。

因此，作者团队提出了 Clover 视频文本预训练方案来进行优化。沿用单模态特征编码器+跨模态特征编码模块的框架，本文在 Clover 中引入了一种三模态对齐的预训练任务，即将视频模态，文本模态以及视频文本融合模态在特征空间进行对齐。作者借助对训练样本的语义 masking 策略来增强三模态对齐训练的效果，同时引入了 pair-wise ranking loss 来辅助更精细的 pair-wise 特征对齐。此外，Masking Language Modeling 的训练思想被用于对跨模态特征融合模块的训练。

通过一系列视频理解下游任务上的效果评估，Clover 视频-文本预训练模型在 DiDeMo、MSRVTT 和 LSMDC 三个文本-视频检索任务上取得了 zero-shot 及 finetune performance 的最佳表现；在 8 个主流的视频问答 benchmark 上也达到了新的 state-of-the-art。

arXiv:

https://arxiv.org/pdf/2207.07885.pdf

Github:

https://github.com/LeeYN-43/Clover