今日推荐几篇最新/经典计算机视觉方向的论文,涉及诸多方面,都是CVPR2022录用的文章,具体内容详见论文原文和代码链接。
通过文本和图像设计你的头发
- 论文题目:HairCLIP: Design Your Hair by Text and Reference Image
- 论文链接:https://arxiv.org/abs/2112.05142
- 代码链接:https://github.com/wty-ustc/HairCLIP
本文提出了一种新的头发编辑交互模式,该模式允许基于用户提供的文本或参考图像单独或联合编辑头发属性。为此,我们在共享的embedding空间中对图像和文本条件进行编码,并通过利用对比语言图像预训练(CLIP)模型的强大图像文本表示能力,提出了统一的头发编辑框架。通过精心设计的网络结构和损失函数,我们的框架可以以一种disentangled的方式执行高质量的头发编辑。
框架概述,这里我们展示了一个以发型描述文本和头发颜色参考图像作为条件输入的示例。
把CLIP用在点云上的工作
-
论文题目:PointCLIP: Point Cloud Understanding by CLIP
-
论文链接:https://arxiv.org/abs/2112.02413
-
代码链接:https://github.com/ZrrSkywalker/PointCLIP
本文的贡献:
- 把CLIP用于3D点云数据,把2D预训练的数据迁移到3D,实现了跨模态的zero-shot。
- 提出inter-view adapter,通过few shot learning大大提升PointCLIP的效果。
- 把PointCLIP和之前的点云分类算法融合,可以获得SOTA
PointcCLIP的pipeline
基于区域的现实世界的自然图像编辑方法
-
论文题目:Blended Diffusion for Text-driven Editing of Natural Images
-
论文链接:https://arxiv.org/abs/2111.14818
-
代码链接:https://github.com/omriav/blended-diffusion
在本篇工作中,作者提出了第一种通用的基于区域的现实世界的自然图像编辑方法,使用自然语言文本作为指导。具体来说,旨在实现一种文本驱动的方法:
-
能够在真实图像上操作,而不是生成图像。
-
不被图像的具体领域限制,例如人脸或者床
-
旨在用户指定区域进行修改,保留图像其余部分
-
产生全局一致(seamless)的编辑结果。
-
能够为相同的输入生成多个结果,因为任务是一对多的。
部分效果图
后续
下一期最新/经典视觉cvpr顶会论文敬请期待!