w~视觉~合集3

whaosoft-143

已于 2025-05-10 12:40:01 修改

阅读量782

点赞数 13

分类专栏：人工智能文章标签：人工智能

于 2025-04-24 22:42:57 首次发布

本文链接：https://blog.csdn.net/weixin_49587977/article/details/147494163

版权

人工智能专栏收录该内容

338 篇文章

订阅专栏

我自己的原文哦~ https://blog.51cto.com/whaosoft/12327888

#几个论文

Fast Charging of Energy-dense Lithium-ion Batteries

Real-time Short Video Recommendation on Mobile Devices

Semantic interpretation for convolutional neural networks: What makes a cat a cat?

Prompt-to-Prompt Image Editing with Cross Attention Control

Poisson Flow Generative Models

Creating a Dynamic Quadrupedal Robotic Goalkeeper with Reinforcement Learning

Video-driven Neural Physically-based Facial Asset for Production

论文 1：Fast Charging of Energy-dense Lithium-ion Batteries

作者：Chao-Yang Wang 等

论文地址：https://www.nature.com/articles/s41586-022-05281-0

摘要：电动汽车的电池材料有不同的选择，例如固态锂电池。今天介绍另一种特殊材料 —— 镍箔，通过在电池内部加入一层薄薄的镍，标准电动汽车电池可以在 10 分钟左右充满大部分电量。这可以为配备多个昂贵电池组的电动汽车提供一种更经济的替代品。

这项研究是由宾夕法尼亚州立大学材料与工程学杰出教授王朝阳等多位研究人员完成的，并发表在了 10 月 12 日的 Nature 上。王朝阳教授是燃料电池和二次电池领域的专家学者，并于 2019 年 12 月当选为美国国家发明家科学院院士。

推荐：11 分钟充电 70%，华人教授在锂电池中加镍箔登上 Nature。

论文 2：Real-time Short Video Recommendation on Mobile Devices

作者：Xudong Gong 等

论文地址：https://dl.acm.org/doi/10.1145/3511808.3557065

摘要：本文针对短视频推荐场景，传统服务端部署的推荐系统在决策时机和实时特征利用方面的不足问题，通过在移动客户端部署推荐系统来实时响应用户反馈，提高推荐结果的精准度，提升用户体验。论文提出的方案 100% 流量部署到了快手短视频推荐生产环境，影响了日均超过 3.4 亿用户的体验。

端上重排系统。

推荐：移动端部署推荐系统：快手获数据挖掘顶会 CIKM 2022 最佳论文。

论文 3：Semantic interpretation for convolutional neural networks: What makes a cat a cat?

作者：Hao Xu 等

论文地址：https://onlinelibrary.wiley.com/doi/10.1002/advs.202204723

摘要：近年来，CNN 因其优异性能，在计算机视觉、自然语言处理等各个领域受到了研究者们的青睐。但是，CNN 是一个「黑盒」模型，即模型的学习内容和决策过程很难用人类能够理解的方式提取和表达，这限制了它的预测可信度和实际应用。

因此，CNN 的可解释性受到了越来越多的关注，研究者们试图采用特征可视化，网络诊断和网络架构调整等方式辅助解释 CNN 的学习机制，将这一「黑盒」透明化，使人类更容易理解、检测和改进其决策过程。

近日，北京大学，东方理工，南方科技大学和鹏城实验室等机构的研究团队提出了一种语义可解释人工智能 (semantic explainable AI, S-XAI）的研究框架，从语义层面解释了 CNN 的学习机制，并以猫狗二分类问题为例，形象地揭示了模型是如何学习类别意义上的猫的概念，即「何以为猫」。

推荐：何以为猫？可解释 AI 从语义层面理解 CNN 的识别机制

论文 4：Prompt-to-Prompt Image Editing with Cross Attention Control

作者：Amir Hertz 等

论文地址：https://prompt-to-prompt.github.io/ptp_files/Prompt-to-Prompt_preprint.pdf

摘要：动动嘴皮子就能把图改好是甲方和乙方的共同愿望，但通常只有乙方才知道其中的酸楚。如今 AI 却向这个高难度问题发起了挑战。

在一篇 10 月 17 日上传到 arXiv 的论文中，来自谷歌研究院、以色列理工学院、以色列魏茨曼科学研究所介绍了一种基于扩散模型的真实图像编辑方法——Imagic，只用文字就能实现真实照片的 PS，比如让一个人竖起大拇指、让两只鹦鹉亲吻。

推荐：挡不住了！扩散模型只用文字就能 PS 照片了。

论文 5：Poisson Flow Generative Models

作者：Yilun Xu 等

论文地址：https://arxiv.org/pdf/2209.11178.pdf

摘要：扩散模型最早来源于物理中的热力学，最近却在人工智能领域大放异彩。还有什么物理理论可以推动生成模型研究的发展呢？

最近，来自 MIT 的研究者受到高维电磁理论的启发，提出了一种称作泊松流（Poisson Flow）的生成模型。理论上，这种模型具有直观的图像和严谨的理论；实验上，它在生成质量、生成速度和鲁棒性上往往比扩散模型更好。本文已被 NeurIPS 2022 接收。

左图：泊松场在三维中的轨迹；右图：在图像上使用 PFGM 的前向 ODE 和反向 ODE。

推荐：卷！MIT 泊松流生成模型击败扩散模型，兼顾质量与速度。

论文 6：Creating a Dynamic Quadrupedal Robotic Goalkeeper with Reinforcement Learning

作者：Xiaoyu Huang 等

论文地址：https://arxiv.org/pdf/2210.04435.pdf

摘要：机器狗不仅能跑能跳，踢足球、当守门员也都很在行。这款机器狗是 MIT 在 2019 年研发的 Mini Cheetah，现在来自加州大学伯克利分校等机构的研究者为 Mini Cheetah 部署了一个新的强化学习框架，让它完成足球守门任务，守门成功率高达 87.5%。

推荐：认真的吗？让机器狗当守门员，还发了篇论文。

论文 7：Video-driven Neural Physically-based Facial Asset for Production

作者：Longwen Zhang 等

论文地址：https://arxiv.org/pdf/2202.05592.pdf

摘要：上海科技大学科研团队联合数字人底层技术公司影眸科技，将首创的 4D PBR 扫描技术与神经网络表达相结合，训练多 VAE 的网络结构，跳过了传统的绑定与动态贴图制作流程。这项工作已经被计算机图形学顶会 SIGGRAPH Asia 2022 接收为 Technical Paper - Journal Track 并受邀作报告分享。

最后在推荐一些链接哦

10 篇 NLP 精选论文

1. EnTDA: Entity-to-Text based Data Augmentation Approach for Named Entity Recognition Tasks. (from Philip S. Yu)

2. Doc2Bot: Accessing Heterogeneous Documents via Conversational Bots. (from Jian Sun)

3. Prompt Conditioned VAE: Enhancing Generative Replay for Lifelong Learning in Task-Oriented Dialogue. (from Jian Sun)

4. Deep Bidirectional Language-Knowledge Graph Pretraining. (from Jure Leskovec)

5. Transcending Scaling Laws with 0.1% Extra Compute. (from Quoc V. Le)

6. Extracting Cultural Commonsense Knowledge at Scale. (from Gerhard Weikum)

7. Entity-Focused Dense Passage Retrieval for Outside-Knowledge Visual Question Answering. (from Raymond J. Mooney)

8. Multilingual Word Sense Disambiguation with Unified Sense Representation. (from Hongming Zhang, Tong Zhang)

9. MICO: A Multi-alternative Contrastive Learning Framework for Commonsense Knowledge Representation. (from Hongming Zhang, Tong Zhang)

10. A Survey of Active Learning for Natural Language Processing. (from Eduard Hovy)

10 篇 CV 精选论文

1. A Tri-Layer Plugin to Improve Occluded Detection. (from Andrew Zisserman)

2. Using Language to Extend to Unseen Domains. (from Trevor Darrell)

3. Large-batch Optimization for Dense Visual Predictions. (from Liang Chen)

4. Towards Sustainable Self-supervised Learning. (from Ming-Ming Cheng, Shuicheng Yan)

5. Learning Dual Memory Dictionaries for Blind Face Restoration. (from Lei Zhang, Wangmeng Zuo)

6. Multi-view Tracking Using Weakly Supervised Human Motion Prediction. (from Pascal Fua)

7. Two-level Data Augmentation for Calibrated Multi-view Detection. (from Pascal Fua)

8. Perceptual Grouping in Vision-Language Models. (from Jonathon Shlens)

9. Consistency and Accuracy of CelebA Attribute Values. (from Kevin W. Bowyer)

10. Is synthetic data from generative models ready for image recognition?. (from Philip Torr)

10 篇 ML 精选论文

1. A Reinforcement Learning Approach in Multi-Phase Second-Price Auction Design. (from Michael I. Jordan)

2. Spatiotemporal Classification with limited labels using Constrained Clustering for large datasets. (from Vipin Kumar)

3. Off-policy evaluation for learning-to-rank via interpolating the item-position model and the position-based model. (from Thorsten Joachims)

4. Mutual Information Regularized Offline Reinforcement Learning. (from Shuicheng Yan)

5. Uncertainty Disentanglement with Non-stationary Heteroscedastic Gaussian Processes for Active Learning. (from Kevin Murphy)

6. Deep conditional transformation models for survival analysis. (from Torsten Hothorn)

7. G-Augment: Searching For The Meta-Structure Of Data Augmentation Policies For ASR. (from Quoc V. Le)

8. A Pareto-optimal compositional energy-based model for sampling and optimization of protein sequences. (from Kyunghyun Cho)

9. Planning for Sample Efficient Imitation Learning. (from Yang Gao)

10. FedFM: Anchor-based Feature Matching for Data Heterogeneity in Federated Learning. (from Yonina C. Eldar)

#腾讯优图实验室~论文1

今年，腾讯优图实验室共有16篇论文入选，研究方向含轻量化模型结构设计、文档理解、深度伪造溯源、掌纹生成、人脸隐私保护、无监督异常检测、图像和谐化、小样本扩散模型领域自适应、增量识别、3D形状生成等研究方向。

以下为腾讯优图实验室入选论文概览：

01 重新思考基于注意力机制的高效模型中的移动模块设计

Rethinking Mobile Block for Efficient Attention-based Models

本文专注于开发现代化、高效且轻量级的模型以用于密集预测，同时在参数量、计算量和性能之间进行权衡。轻量级CNN模型有倒残差模块（Inverted Residual Block，IRB）作为基础结构，但基于注意力的对应基础模块研究尚未得到认可。

本文从统一的角度重新思考了高效的IRB模块和Transformer中的有效组件，将基于CNN的IRB扩展到基于注意力的模型，并抽象出一个残差元移动块（Meta Mobile Block，MMB）用于轻量级模型设计。遵循简单但有效的设计准则，我们推导出一个现代的倒残差移动模块（Inverted Residual Mobile Block，iRMB），并仅使用iRMB构建一个类似ResNet的高效模型（EMO）用于下游任务。在ImageNet-1K、COCO2017和ADE20K基准测试上的大量实验证明了提出方法的优越性。例如，EMO-1M/2M/5M在ImageNet-1K上达到了71.5、75.1和78.4的Top-1，超过了同时代基于CNN/Attention的模型，同时在参数、效率和准确性上得到了良好的权衡。

论文下载地址：

https://arxiv.org/pdf/2301.01146.pdf

02 一种选择性区域关注的端到端文档理解模型

Attention Where It Matters: Rethinking Visual Document Understandingwith Selective Region Concentration

本文提出了一种新颖的端到端文档理解模型SeRum，用于从文档图像中提取有价值的关键信息，可用于文档分析、检索和办公自动化等场景。不同于常规的多阶段技术方案，SeRum将文档图像理解和图像文字识别任务统一转换为对感兴趣区域视觉Token集合的局部解码过程，并提出内容感知的Token-Merge模块。

这种机制使模型能够更加关注由查询解码器生成的感兴趣区域，提高了模型识别的准确性，并加快生成模型的解码速度。文章中还设计了多个针对性的预训练任务，以增强模型对图片内容理解和区域感知能力。实验结果表明，SeRum在文档理解任务上实现了sota性能，并在文本识别任务上取得了有竞争力的结果。

03 从粗到细：一种学习紧凑型判别表征的单阶段图像检索

Coarse-to-Fine: Learning Compact Discriminative Representation for Single-Stage Image Retrieval

图像检索是从数据库中找到与查询图像视觉相似的图像，基于检索-排序范式的两阶段方法取得了优越的性能，但其需要额外的局部和全局模块，在实际应用中效率低下。为了更好地权衡检索效率和准确性，现有的方法将全局和局部特征融合为一个联合表征以执行单阶段图像检索。然而，受到复杂的环境影响如背景、遮挡和视角等，这些方法仍具有挑战性。

在这项工作中，我们设计了一个由粗到细的框架CFCD来学习紧凑的特征，用于端到端的单阶段图像检索--只需要图像级标签。本文首先设计了一种新颖的自适应损失函数，可在每个小批量样本内动态调整其特征的尺度和角度，通过由小到大逐步增加来加强训练过程中的监督和类内紧凑性。此外，我们还提出了一种对比学习机制，通过困难负采样策略以及选择突出的局部描述符来将细粒度语义关系注入全局表示，从而优化全局范围内的类间显著性。广泛的实验结果证明了我们方法的有效性，我们的方法在 Revisited Oxford 和 Revisited Oxford 等基准测试中实现了最先进的单阶段图像检索性能。

04 D3G：基于单帧标注探索高斯先验用于视频片段定位

D3G: Exploring Gaussian Prior for Temporal Sentence Grounding with GlanceAnnotation

基于文本的视频片段定位任务（Temporal sentence grounding, TSG）旨在给定自然语言查询从未经过修剪的视频中定位出对应的特定片段。最近，弱监督方法与全监督方法相比仍有较大性能差距，而后者需要费力的时间戳标注。在本研究，我们致力于减少TSG任务的标注成本并与全监督方法相比仍保持具有竞争力的性能。为了实现这个目标，我们研究了最近提出的基于单帧标注的TSG任务，其对于每个文本查询，只需要对应的单帧标注信息。

在此设定下，我们提出了基于单帧标注和动态高斯先验的视频片段定位框架（D3G），其主要由语义对齐组对比学习模块 (SA-GCL) 和动态高斯先验调整模块（DGA）组成。具体来说，SA-GCL模块通过联合利用高斯先验和语义一致性从2D时序图中采样可靠的正样本片段，这有助于对齐文本-视频片段对在联合嵌入空间的表征。此外，为了缓解由单帧标注带来的标注偏置问题并有效建模由多个事件组成的复杂文本查询，我们进一步提出了DGA模块，其主要负责动态调整高斯先验分布来逼近真实目标片段。我们在三个具有挑战性的基准上广泛的实验验证所提出的D3G的有效性。D3G的性能明显优于最先进的弱监督方法并缩小与完全监督的方法相比的性能差距。

05 基于对比式伪标签学习的开放场景深伪溯源方法

Contrastive Pseudo Learning for Open-world Deepfake Attribution*本文由腾讯优图实验室、上海交通学共同完成

随着生成技术的快速发展，对于深度伪造人脸的攻击类型溯源问题已经引起了广泛关注。现有的诸多研究在GAN溯源任务上有了一些进展，但忽略了更具威胁性的人脸替换或表情驱动等攻击类型。此外，开放场景下存在着大量没有攻击类型标注的伪造人脸数据，这部分数据也尚未被充分利用起来。为了应对这些挑战，本文构建了一个名为“开放场景下深度伪造溯源”（OpenWorld-DeepFake Attribution，OW-DFA）的新基准，涵盖了人脸替换、表情驱动、属性编辑、人脸替换等20多种主流伪造技术，以评估开放场景下不同伪造人脸类型的溯源性能。

同时，本文针对OW-DFA任务提出了一个对比式伪标签学习（Contrastive Pseudo Learning，CPL）算法，包括以下两个部分：1）引入全局-局部投票模块，以修正不同攻击类型产生的伪造区域大小差异；2）设计基于概率的伪标签策略，以缓解在利用无标签数据时相似攻击方法所引起的噪声。此外，本文还将CPL算法进一步与目前广泛使用的预训练和迭代学习技术结合在一起，进一步提高了溯源性能。本文通过大量的实验证明了所提出的CPL方法在OW-DFA基准测试上的优越性，有效促进了深度伪造溯源任务的可解释性和安全性，并对深度伪造检测领域有着积极影响。

06 面向掌纹识别的拟真掌纹生成

RPG-Palm: Realistic Pseudo-data Generation for Palmprint Recognition

*本文由腾讯优图实验室、腾讯微信支付33号实验室、合肥工业大学共同完成

掌纹作为一种稳定且隐私友好的生物特征识别技术，最近在识别应用中显示出巨大的潜力。然而，大规模公开掌纹数据集的缺乏限制了掌纹识别技术的进一步研究和发展。在本文中，我们提出了一种ID可控的拟真掌纹生成模型。第一，我们引入条件调制模块来提高类内多样性；第二，提出身份感知损失，以确保不配对训练下生成样本的身份一致性。

同时，我们进一步改进了Bezier掌纹线生成策略以保证身份间可区分性。大量的实验结果表明，使用生成掌纹数据预训练可以显着提高识别模型的性能。例如，我们的模型在训练/测试 1:1 和 1:3设定下，相较最先进的 BezierPalm通过率提高了 5% 和 14% @FAR=1e-6。当仅使用 10% 的真实数据训练时，我们的方法仍优于基于ArcFace使用100% 真实数据训练的模型，这表明我们的方法向无需使用真实数据进行模型训练的掌纹识别更进了一步。

论文下载地址：

https://github.com/RayshenSL/RPG-PALM

07 PartialFace:基于随机频率分量的人脸识别隐私保护方法

Privacy-Preserving Face Recognition Using Random Frequency Components

*本文由腾讯优图实验室、复旦大学共同完成

本文对隐藏人脸图像视觉特征和改善抗重建攻击能力进行了探讨，并提出一种可提供训练、推理阶段隐私保护的人脸识别方法PartialFace。本文首先利用人类和模型对不同频域分量的感知差异，通过修剪肉眼可感知的低频分量隐藏图像视觉信息。其次，本文注意到同类方法的隐私保护缺陷，即识别模型精度依赖较大规模的高频分量，而这些分量搭载的冗余信息可能使模型暴露于重建攻击。

为应对这一问题，本文观察到模型注意力在不同频域分量上存在差异，提出在随机选择的分量组合上训练模型，使模型建立从局部频域信息到整体人脸信息的映射。从而，本文在维持识别精度的同时，将所需高频分量规模降低到同类方法的1/6，提高了隐私保护性能。经广泛实验验证，本文所提方法可提供显著优于当前先进方法的抗重建能力，同时保持有竞争力的任务性能。

08 记住正常性:记忆力机制扩充的知识蒸馏无监督异常检测

Remembering Normality: Memory-guided Knowledge Distillation for Unsupervised Anomaly Detection

*本文由腾讯优图实验室、上海交通大学共同完成

本文提出了一种新的无监督异常检测方法，称为Memory-guided Knowledge Distillation (MemKD)。传统基于知识蒸馏的异常检测方法在学习过程中会出现“正常性遗忘”问题，即在仅使用正常数据训练前提下，学生模型却会重构异常特征，且对正常数据中包含的纹理细节很敏感。

为了解决这个问题，MemKD引入了一种新的记忆机制，即正常知识召回模块 (NRM)，通过存储正常数据的信息来加强学生模型生成的特征的正常性。同时，MemKD还采用了正常性表示学习策略，构建了一个正常样本集，使NRM能够记忆无异常数据的先验知识，并在后续的查询中进行回忆。实验结果表明，MemKD在MVTec AD、VisA、MPDD、MVTec 3D-AD和Eyecandies等五个数据集上取得了良好的效果。

09 学习全局感知核的图像和谐化

Learning Global-aware Kernel for Image Harmonization

*本文由腾讯优图实验室、浙江大学共同完成

图像和谐化旨在通过以背景为参考自适应调整前景色彩来解决合成图像中的视觉不连续问题。现有方法采用前景和背景之间的局部颜色变换或区域匹配策略，忽略邻近先验并将前景/背景独立区分以实现和谐化。由此在多样化的前景物体和复杂场景中仍然表现有限性能。为解决这个问题，我们提出了一种新颖的全局感知内核网络（GKNet）实现综合考虑远距离背景信息的局部区域和谐化。

具体来说，GKNet包括和谐化核预测和和谐化调制两部分。前者包括用于获取长距离参考提取器（LRE）和用于融合全局信息与局部特征的多层级和谐化核预测模块（KPB）；为了实现更好地选择相关的长距离背景参考以进行局部和谐化这一目标，我们在其中还提出了一种新颖的选择性相关融合（SCF）模块。后者利用预测得到的和谐化核进行前景区域和谐化。大量实验证明了我们的图像和谐化方法相对于最先进方法的优越性，例如，实现了 39.53dB PSNR，比相关最佳方法提升+0.78dB；并与 SoTA 方法相比，fMSE/MSE 降低了 11.5%和6.7%。

论文下载地址：

https://arxiv.org/pdf/2305.11676.pdf

10 基于分段内容融合与有向分布一致性的小样本扩散模型领域自适应

Phasic Content Fusing Diffusion Model with Directional Distribution Consistency for Few-Shot Model Adaption

*本文由腾讯优图实验室、上海交通大学共同完成

在有限样本下训练生成模型是一项具有挑战性的任务，现有的方法主要利用小样本模型领域自适应来训练网络。然而，在数据极度稀缺的场景下（少于10个样本），生成模型很容易出现过拟合与内容退化的现象。

为了解决这些问题，我们提出了一种新颖的基于分段内容融合的小样本扩散模型，并提出有向分布一致性损失，使得扩散模型在不同训练阶段学习到不同的目标域信息。具体而言，我们设计了一种分段训练策略，通过分段的内容融合帮助模型在加噪步数较大时保持源域的内容并学习目标域的风格信息，在加噪步数较小时学习目标域的局部细节信息，从而提高模型对内容、风格和局部细节的把控能力。

此外，我们引入了一种新的有向分布一致性损失，能够高效、稳定地保证生成域分布和源域分布的一致性，避免模型过拟合。最后，我们还提出了一种跨域结构引导策略，在域适应过程中增强生成图像与原图像结构的一致性。我们从理论分析、定性和定量的实验三个方面，有效地证明了所提出方法相较于以往小样本模型自适应方法的优越性。

11 基于实例及类别监督交替学习的增量识别

Instance and Category Supervision are Alternate Learners for Continual Learning

*本文由腾讯优图实验室、华东师范大学共同完成

持续学习CL（增量学习）是在先前习得的基础上不断发展复杂行为技能。然而，当前的CL算法往往会导致类级遗忘，因为标签信息经常被新知识快速覆盖。这促使人们试图通过最近的自我监督学习（SSL）技术来挖掘实例级别的歧视。然而，先前的工作指出，自监督学习目标本质上是在对失真的不变性和保留样本信息之间的权衡，这严重阻碍了效果提升，我们从信息论的角度重新表述了SSL，通过解开实例级区分的目标，并解决了这种权衡，以促进对失真具有最大程度不变的紧凑表示。

在此基础上，我们开发了一种新的交替学习范式，以享受实例级和类别级监督的互补优势，从而提高了对遗忘的鲁棒性，并更好地适应每项任务。为了验证所提出的方法，我们使用类增量和任务增量设置在四个不同的基准上进行了广泛的实验，其中性能的飞跃和彻底的消融研究证明了我们建模策略的有效性和效率。

12 基于改进自回归模型的多样3D形状生成模型

Learning Versatile 3D Shape Generation with Improved AR Models

*本文由腾讯优图实验室、清华大学、复旦大学共同完成

我自回归（Auto-Regressive，AR）模型通过对网格空间中的联合分布进行建模，在2D图像生成方面取得了令人瞩目的成果。虽然这种方法已经扩展到3D领域以实现强大的形状生成，但仍存在两个限制：在体积网格上进行昂贵的计算和网格维度上的模糊自回归顺序。

为了克服这些限制，我们提出了改进的自回归模型（Improved Auto-regressive Model，ImAM）用于3D形状生成，该模型应用基于潜在向量的离散表示学习，而不是使用体积网格。我们的方法不仅降低了计算成本，还通过在更易处理的顺序中学习联合分布来保留基本的几何细节。此外，由于我们模型架构的简单性，我们可以通过连接各种条件输入（如点云、类别、图像和文本）将其自然地从无条件生成扩展为条件生成。大量实验证明，ImAM能够合成多个类别的多样化且真实的形状，并达到了最先进的性能水平。

论文下载地址：

https://arxiv.org/pdf/2303.14700.pdf

13 用于弱监督目标定位的类别感知分配变换器

Category-aware Allocation Transformer for Weakly Supervised Object Localization

*本文由腾讯优图实验室、厦门大学共同完成

弱监督目标定位（WSOL）旨在实现，仅给定图像级标签的前提下学习一个目标定位器。最近，基于自注意力机制和多层感知器结构的变换神经网络（Transformer）因其可以捕获长距离特征依赖而在WSOL中崭露头角。美中不足的是，基于Transformer的方法使用类别不可知的注意力图来预测边界框，从而容易导致混乱和嘈杂的目标定位。

本文提出了一个基于Transformer的新颖框架——CATR（类别感知Transformer），该框架在Transformer中学习特定目标的类别感知表示，并为目标定位生成相应的类别感知注意力映射。具体来说，本文提出了一个类别感知模块来引导自注意力特征图学习类别偏差，并且提供类别监督信息来指导其学习更有效的特征表示。此外，本文还设计了一个目标约束模块，以自我监督的方式细化类别感知注意力图的目标区域。最后，在两大公开数据集CUB-200-2011和ILSVRC上进行了充分的实验，验证了本文方法的有效性。

14 SLAN: 用于视觉语言理解的自定位辅助网络

SLAN: Self-Locator Aided Network for Vision-language Understanding

*本文由腾讯优图实验室、南开大学共同完成

学习视觉和语言之间的细粒度交互有助于模型更准确地理解视觉语言任务。然而，根据文本提取关键图像区域进行语义对齐仍然具有挑战性。大多数现有工作要么使用冻结检测器获得冗余区的目标区域，且提取到的目标区域大多与文本的语义信息无关，要么由于严重依赖标注数据来预训练检测器而无法进一步扩展。

为了解决这些问题，我们提出了自定位辅助网络（SLAN），用于视觉语言理解任务，无需任何额外的目标数据。SLAN 由区域过滤器和区域适配器组成，用于根据不同文本定位感兴趣的区域。通过聚合视觉语言信息，区域过滤器选择关键区域，区域适配器通过文本指导更新其坐标。通过细粒度的区域-文本对齐，SLAN 可以轻松推广到许多下游任务。它在五个视觉语言理解任务上取得了相当有竞争力的结果（例如，在 COCO 图像到文本和文本到图像检索上分别为 85.7% 和 69.2%，超越了之前的 SOTA 方法）。SLAM 还展示了对两个目标定位任务的强大的零样本和微调可迁移性。

15 掩码自编码器是高效的类增量学习器

Masked Autoencoders are Efficient Class Incremental Learners

*本文由腾讯优图实验室、南开大学共同完成

类增量学习（CIL）旨在顺序学习新类别，同时避免对之前知识的灾难性遗忘。在本研究中，我们提出使用掩码自编码器（MAEs）作为CIL的高效学习器。MAEs最初是为了通过重构无监督学习来学习有用的表示，它们可以很容易地与监督损失集成以进行分类。此外，MAEs可以可靠地从随机选择的补丁中重建原始输入图像，我们利用这一点更有效地存储过去任务的样本以供CIL使用。我们还提出了双边MAE框架，以从图像级别和嵌入级别融合中学习，从而产生更好的重建图像和更稳定的表示。我们的实验证实，与CIFAR-100、ImageNet-Subset和ImageNet-Full的最新技术相比，我们的方法实现了更优越的性能。

16 SMMix：视觉 Transformer 的自驱动图像混合

SMMix: Self-Motivated Image Mixing for Vision Transformers

*本文由腾讯优图实验室、南开大学共同完成

CutMix 是一种重要的增强策略，决定了视觉变换器 (ViT) 的性能和泛化能力。然而，混合图像与相应标签之间的不一致损害了其效果。现有的 CutMix 变体通过生成更一致的混合图像或更精确的混合标签来解决这个问题，但不可避免地会带来繁重的训练开销或需要额外的信息，从而破坏了易用性。为此，我们提出了一种新颖且有效的自激励图像混合方法（SMMix），该方法通过训练本身的模型来激励图像和标签增强。具体来说，我们提出了一种最大-最小注意力区域混合方法，该方法丰富了混合图像中的注意力集中对象。然后，我们引入了一种细粒度的标签分配技术，该技术通过细粒度的监督来共同训练混合图像的输出标记。此外，我们设计了一种新颖的特征一致性约束来对齐混合和非混合图像的特征。由于自我激励范例的微妙设计，我们的 SMMix 的显着特点是比其他 CutMix 变体具有更小的训练开销和更好的性能。特别是，SMMix 在 ImageNet-1k 上将 DeiT-T/S/B、CaiT-XXS-24/36 和 PVT-T/S/M/L 的准确率提高了 +1% 以上。我们的方法的泛化能力也在下游任务和分布外数据集上得到了证明。

论文链接：https://arxiv.org/abs/2212.12977

#零样本异常检测1

本文为CVPR 2023 VAND Workshop Challenge赛道一和赛道二分别获得第一和第四成绩的方案。

在计算机视觉领域，无监督异常检测(AD)旨在使用仅在无异常图像上训练的模型识别异常图像并定位异常区域， 广泛应用于工业缺陷检测。目前大多数方法都集中在为每个类别训练专用模型，这依赖大量正常图像集合作为参考。然而在实际应用中，需要检测的工业产品种类繁多，很难为每个类别收集大量的训练图像。因此，零样本/小样本设置在将AD带入实际应用中起着至关重要的作用。

对于工业视觉检测而言，在没有或只有少数正常参考图像的情况下，构建一个能够快速适应众多类别的单一模型是一个很有价值的研究方向。

在zero-shot任务中，所提解决方案在CLIP模型上加入额外的线形层，使图像特征映射到联合嵌入空间，从而使其能够与文本特征进行比较并生成异anomaly maps。

当有参考图像可用时（few-shot），所提解决方案利用多个memory banks存储参考图像特征，并在测试时与查询图像进行比较。

在ZS和FS两项挑战中，所提方案分别取得了第一和第四名的成绩。

具体来说，所提方案的几个要点是：

使用状态（state）和模板（template）的提示集成来制作文本提示。
为了定位异常区域，引入了额外的线性层，将从CLIP图像编码器提取的图像特征映射到文本特征所在的线性空间。
将映射的图像特征与文本特征进行相似度比较，从而得到相应的anomaly maps。
few-shot中，保留zero-shot阶段的额外线性层并保持它们的权重。此外，在测试阶段使用图像编码器提取参考图像的特征并保存到memory banks中，以便与测试图像的特征进行比较。
为了充分利用浅层和深层特征，同时利用了图像编码器不同stage的特征。

零样本异常检测设定

分类任务

state-level文本提示是使用通用的文本描述正常或异常的目标（比如flawless,damaged），而不会使用“chip around edge and corner”这种过于细节的描述；

所谓template-level文本提示，所提方案在CLIP中为ImageNet筛选了85个模板，并移除了“a photo of the weird [obj.]”等不适用于异常检测任务的模板。

state-level和template-level的集成实现如下，最后的两组向量分别描述了正常/异常目标的文本提示。

def encode\_text\_with\_prompt\_ensemble\(model, texts, device\):  
    prompt\_normal = \['\{\}', 'flawless \{\}', 'perfect \{\}', 'unblemished \{\}', '\{\} without flaw', '\{\} without defect', '\{\} without damage'\]  
    prompt\_abnormal = \['damaged \{\}', 'broken \{\}', '\{\} with flaw', '\{\} with defect', '\{\} with damage'\]  
    prompt\_state = \[prompt\_normal, prompt\_abnormal\]  
    prompt\_templates = \['a bad photo of a \{\}.',   
                        'a low resolution photo of the \{\}.',   
                        'a bad photo of the \{\}.',   
                        'a cropped photo of the \{\}.',   
                        'a bright photo of a \{\}.',   
                        'a dark photo of the \{\}.',   
                        'a photo of my \{\}.',   
                        'a photo of the cool \{\}.',   
                        'a close-up photo of a \{\}.',   
                        'a black and white photo of the \{\}.',   
                        'a bright photo of the \{\}.',   
                        'a cropped photo of a \{\}.',   
                        'a jpeg corrupted photo of a \{\}.',   
                        'a blurry photo of the \{\}.',   
                        'a photo of the \{\}.',   
                        'a good photo of the \{\}.',   
                        'a photo of one \{\}.',   
                        'a close-up photo of the \{\}.',   
                        'a photo of a \{\}.',   
                        'a low resolution photo of a \{\}.',   
                        'a photo of a large \{\}.',   
                        'a blurry photo of a \{\}.',   
                        'a jpeg corrupted photo of the \{\}.',   
                        'a good photo of a \{\}.',   
                        'a photo of the small \{\}.',   
                        'a photo of the large \{\}.',   
                        'a black and white photo of a \{\}.',   
                        'a dark photo of a \{\}.',   
                        'a photo of a cool \{\}.',   
                        'a photo of a small \{\}.',   
                        'there is a \{\} in the scene.',   
                        'there is the \{\} in the scene.',   
                        'this is a \{\} in the scene.',   
                        'this is the \{\} in the scene.',   
                        'this is one \{\} in the scene.'\]  
  
    text\_features = \[\]  
    for i in range\(len\(prompt\_state\)\):  
        prompted\_state = \[state.format\(texts\[0\]\) for state in prompt\_state\[i\]\]  
        prompted\_sentence = \[\]  
        for s in prompted\_state: # \[prompt\_normal, prompt\_abnormal\]  
            for template in prompt\_templates:  
                prompted\_sentence.append\(template.format\(s\)\)  
        prompted\_sentence = tokenize\(prompted\_sentence\).to\(device\)  
        class\_embeddings = model.encode\_text\(prompted\_sentence\)  
        class\_embeddings /= class\_embeddings.norm\(dim=\-1, keepdim=True\)  
        class\_embedding = class\_embeddings.mean\(dim=0\)  
        class\_embedding /= class\_embedding.norm\(\)  
        text\_features.append\(class\_embedding\)  
    text\_features = torch.stack\(text\_features, dim=1\).to\(device\).t\(\)  
  
    return text\_features

text\_probs = \(100.0 \* image\_features \@ text\_features.T\).softmax\(dim=\-1\)  
results\['pr\_sp'\].append\(text\_probs\[0\]\[1\].cpu\(\).item\(\)\)

分割任务

在zero-shot分割任务中，因为这个赛道允许使用外部数据，所以这里额外引入了linear layer去映射patch_tokens，然后基于每个patch_token去和文本特征做相似度计算，从而得到anomaly map。

如上图中zero-shot Mode部分，这里将图像编码器拆分为n个stages，每个stage都分别计算了图像特征：

具体实现如下代码段：

patch\_tokens = linearlayer\(patch\_tokens\)  
anomaly\_maps = \[\]  
for layer in range\(len\(patch\_tokens\)\):  
  patch\_tokens\[layer\] /= patch\_tokens\[layer\].norm\(dim=\-1, keepdim=True\)  
  anomaly\_map = \(100.0 \* patch\_tokens\[layer\] \@ text\_features.T\)  
  B, L, C = anomaly\_map.shape  
  H = int\(np.sqrt\(L\)\)  
  anomaly\_map = F.interpolate\(anomaly\_map.permute\(0, 2, 1\).view\(B, 2, H, H\),  
  size=img\_size, mode='bilinear', align\_corners=True\)  
  anomaly\_map = torch.softmax\(anomaly\_map, dim=1\)\[:, 1, :, :\]  
  anomaly\_maps.append\(anomaly\_map.cpu\(\).numpy\(\)\)  
anomaly\_map = np.sum\(anomaly\_maps, axis=0\)

Linear Layer的训练（CLIP部分的参数是冻结的）使用了focal loss和dice loss。

小样本异常检测设定

分类任务

对于few-shot设置，图像的异常预测来自两部分。第一部分与zero-shot设置相同。第二部分遵循许多AD方法中使用的常规方法，考虑anomaly map的最大值。所提方案将这两部分相加作为最终的异常得分。

分割任务

few-shot分割任务使用了memory bank，如图1中的黄色背景部分。

直白来说，就是查询样本和memory bank中的支持样本去做余弦相似度，再通过reshape得到anomaly map，最后再加到zero-shot得到的anomaly map上得到最后的分割预测。

另外在few-shot任务中没有再去fine-tune上文提到的linear layer，而是直接使用了zero-shot任务中训练好的权重。

实验

定性结果

简单来说，在简单一些的图像中zero-shot和few-shot上效果差不多，但面对困难任务时，few-shot会改善一些。

定量结果

#BCP~~

在半监督医学图像分割中，标记和未标记数据分布之间存在经验不匹配问题。本文提出了一种简单的方法来缓解这个问题—在一个简单的 Mean Teacher 架构中双向复制粘贴标记和未标记的数据。

论文链接：https://arxiv.org/pdf/2305.00673.pdf

源码链接：https://github.com/DeepMed-Lab-ECNU/BCP

从CT或MRI等医疗图像中分割内部结构对于许多临床应用至关重要。已经提出了各种基于监督学习的医疗图像分割技术，这通常需要大量标注数据。然而由于在标注医疗图像时手动轮廓绘制过程繁琐且昂贵，近年来，半监督分割越来越受到关注，并在医疗图像分析领域变得无处不在。

一般地，在半监督医疗分割领域，标签数据和无标签数据从相同分布抽取。但在现实世界中，很难从标记数据中估计准确的分布，因为它们数据很少。因此，在大量未标注数据和极少量标注数据宗师存在经验分布不匹配。半监督分割方法总是尝试以一致的方式对称地训练标注和未标注数据。例如子训练生成为标签，以伪监督方式监督未标注数据。基于Mean Teacher的算法采用一致性损失来监督具有强增强的未标注数据，类似于监督具有GT的标注数据。ContrastMask在标注数据和未标注数据上应用密集对比学习。但是大部分已有的半监督算法在不同学习范式下使用标注和未标注数据。

CutMix是一种简单但强大的数据处理方法，也被称为复制黏贴（CP），它有可能鼓励未标注的数据从标注数据中学习常见的语义，因为同一图中的像素共享的语义更接近。在半监督学习中，未标注数据的弱-强增强对之间的强制一致性被广泛使用，并且CP通常被用作强增强。但现有的CP方法未考虑CP较差未标注数据，或者简单地将标注数据中物体复制为前景并黏贴到另一个数据。它们忽略了为标记数据和未标记数据设计一致的学习策略，这阻碍了其在减少分布差距方面使用。同时，CP试图通过增加未标注数据的多样性来增强网络泛化能力，但由于CutMix图像仅由低精度伪标签监督，因此很难实现高性能。

为了缓解标注数据和未标注数据之间经验不匹配问题，一个成功的设计是鼓励未标注数据从标注数据中学习全面的公共语义，同时通过对标注数据和未标注数据的一致学习策略来促进分布对齐。本文通过提出一种简单但非常有效的双向复制黏贴（BCP）方法实现这一点。该方法在Mean Teacher框架中实例化。具体地，为了训练学生网络，本文通过将随机裁剪从标记图像（前景）复制黏贴到未标注图像（背景）来增加输入。繁殖将随机裁剪从五标注图像（前景）复制黏贴到标注图像（背景）来增加输入。学生网络由生成的监督信息通过来自教师网络的未标注图像伪标签和标注图像的标签图之间的双向复制黏贴进行监督。这两个混合图像有助于网络双向对称地学习标注数据和未标注数据间通用语义。

Mean Teacher和训练策略

通过复制-黏贴预训练

本文对标注数据进行了复制黏贴增广来训练监督模型，监督模型在自训练过程中会为未标注数据生成伪标签。该策略已被证明能有效提高分割性能。

双向复制-黏贴

实验LA数据集

心房分割挑战[39]数据集包括100个带标签的三维钆增强磁共振图像扫描（GE MRI）。

这里选择UA-MT，SASSNet，DTC，URPC，MC-Net，SS-Net作为比较模型。这里给出了不同标签率下的实验结果。表1给出了相关实验结果。可以看出本文方法在4个评价指标上都获得最高的性能，大幅度超过比较模型。

Pancreases-NIT数据集

82个人工绘制的腹部CT增强体积。这里选择V-Net，DAN，ADVNET，UA-MT，SASSNet，DTC和CoraNet作为比较算法。表2给出了相关实验结果。本文方法BCP在Dice、Jaccard和95HD指标上实现了显著的改进（即分别以3.24%、4.28%和1.16的优势超过第二好）。这些结果没有进行任何后期处理以进行公平比较。

ACDC数据集

四类（即背景、右心室、左心室和心肌）分割数据集，包含100名患者的扫描。表3给出了相关实验结果。BCP超越了SOTA方法。对于标记比率为5%的设置，我们在Dice指标上获得了高达21.76%的巨大性能改进

#Imagen 2

先是前几天祭出大杀器 Gemini，发布会上的一系列 Demo 展示让人眼花缭乱。短短一周时间，现在谷歌又宣布了几个好消息：Gemini Pro 的第一个版本现在可以通过 Gemini API 访问；发布 Imagen 2；推出一系列针对医疗行业进行微调的模型 MedLM。谷歌最近真是好消息不断。Imagen 2可以生成质量更高、更逼真、更准确的图像。

在这些发布当中，文本到图像的 Imagen 2 受到大家格外的关注。此前，谷歌就推出了文本到图像扩散模型Imagen ，其生成的结果可谓是天马行空、奇幻又逼真。

现在，随着 Google DeepMind 宣布 Imagen 2 的到来，谷歌在图像生成领域又前进了一步。他们在官方 X 上表示：「Imagen 2 是我们最先进的文本到图像扩散技术，具有高质量，逼真的输出和与用户提示更强的一致性。」

开发人员和云客户可以通过 Google Cloud Vertex AI 中的 Imagen API 来使用 Imagen 2 。

Google Cloud Vertex AI 地址：https://cloud.google.com/blog/products/ai-machine-learning/imagen-2-on-vertex-ai-is-now-generally-available

Imagen 2 效果到底如何呢？我们继续往下看。

提示：「一张 32 岁女性在丛林中的照片，她是一位自然资源保护主义者；运动型短卷发，笑容温暖」。

提示：深蓝色背景中的水母。

提示：油画，一个桔子在砧板上。光穿过橙色的部分，在切菜板上投下橙色的光。背景中有一块蓝色和白色相交的布。焦散、反射光、富有表现力的笔触。

Imagen 2：更懂用户心思

为了创建更高质量、更准确以及更符合用户提示的图片，Google DeepMind 在 Imagen 2 训练数据集中进行了一些更改，他们在图像描述（caption）中添加了更详细的描述，这样一来 Imagen 2 可以学习不同的描述并加以概括，从而更好地理解用户提示。

经过增强的「图像 - 描述对」有助于 Imagen 2 更好地理解图像和文字之间的关系，从而增强对上下文和细微差别的理解。

以下是 Imagen 2 快速理解提示的示例：

提示：溪水潺潺，鸟儿唱着歌，它们混合的音乐在空中飘荡。（菲利斯・惠特利的《傍晚赞歌》）

提示：知更鸟从摇曳的常春藤丛中飞到墙顶，张开喙，唱起响亮、可爱的颤音，只是为了炫耀。世界上没有什么比知更鸟炫耀时更可爱的了。—— 它们几乎总是这么做。（弗朗西斯・霍奇森・伯内特的《秘密花园》）

提示：考虑一下海洋的微妙之处；其中最可怕的生物如何在水下滑行，大部分时间是不明显的，并且危险地隐藏在最美丽的蔚蓝色调之下。（赫尔曼・梅尔维尔的《白鲸》）

生成更逼真的图像

Imagen 2 在数据集和模型方面改善了文本到图像工具经常遇到的许多问题，包括渲染逼真的手和人脸，以及保持图像没有干扰视觉的伪影

Imagen 2 生成逼真手部和人脸的示例。

谷歌团队根据人类对照明、取景、曝光、清晰度等品质的偏好，训练了一个专门的图像美学模型。每张图片都会得到一个美学评分，这有助于调整 Imagen 2，使其在训练数据集中对符合人类偏好的图片给予更多权重。这项技术提高了 Imagen 2 生成高质量图像的能力。

使用 prompt「Flower」生成的图像，美学得分由低变高（从左到右）。

Imagen 2 甚至可以呈现图像中的文本。

它还可以为企业、品牌或产品设计 logo：

丝滑的风格调节

Imagen 2 基于扩散技术提供了高度的灵活性，使控制和调整图像风格变得更加容易。通过提供参考风格的图像并结合文字提示，使用者可以调节 Imagen 2 生成相同风格的新图像。

Imagen 2 通过使用参考图片和文本提示更容易地控制输出风格

「遥遥领先」的修补和扩图技术

Imagen 2 还支持修补（inpainting）和扩图（outpainting）等图像编辑功能。通过提供参考图像和图像遮罩，用户可以使用修补技术在原始图像中直接生成新内容，或者使用扩图技术将原始图像扩展到边界之外。Google Cloud 的 Vertex AI 计划在新的一年采用这项技术。

Imagen 2 可以通过修补技术直接在原始图像中生成新内容。

通过扩图，Imagen 2 可以将原始图像扩展到边界之外。

有责任感的设计

为了帮助降低文本到图像生成技术的潜在风险和挑战，谷歌团队从设计、开发到产品部署都设置了严格的防护措施。

Imagen 2 与 SynthID 集成，SynthID 是用于水印和识别人工智能生成内容的尖端工具包，允许 Google Cloud 客户在不影响图像质量的情况下，直接在图像像素中添加不易察觉的数字水印。这样一来，即使在应用滤镜、裁剪或有损压缩等修改后，SynthID 仍能检测到水印。

在向用户发布功能之前，研究团队会进行严格的安全测试，以最大限度地降低伤害风险。从一开始，他们就对 Imagen 2 的训练数据安全下了很多功夫，并添加了技术防护措施，限制暴力、攻击性或色情内容等有问题的输出。他们还在生成时对训练数据、输入提示和系统生成的输出进行安全检查。例如，应用全面的安全过滤器，以避免生成有潜在问题的内容，如指定个人的图像。随着 Imagen 2 功能的不断扩展和推出，研究团队也在不断对其进行安全评估。

参考链接：https://deepmind.google/technologies/imagen-2/?utm_source=twitter&utm_medium=social

#DINO~~

重温第一篇探索 ViT 模型在自监督学习领域的经典代表作

Paper：https://openaccess.thecvf.com/content/ICCV2021/papers/Caron_Emerging_Properties_in_Self-Supervised_Vision_Transformers_ICCV_2021_paper.pdf

https//arxiv.org/pdf/2104.14294.pdf

Code：https://github.com/facebookresearch/dino

DINO 是一种用于自监督视觉学习的深度学习模型，于 2021 年由 Facebook AI 提出。DINO 是最先探讨基于 Transformer 架构的自监督学习代表作之一，其通过在无标签图像上进行自监督训练来学习视觉特征表示。

DINO 是视觉 Transformer 做自监督学习的非常经典的工作。DINO 所要探究的问题是：自监督学习算法是否能够为视觉 Transformer 带来新的特性。本文给出了以下的观察：首先，自监督训练得到的 ViT 包含关于图像语义分割的显式信息，这在以往的有监督训练和卷积网络里面都是不具备的。其次，这些特征也是优秀的 k-NN 分类器，ViT-Small 在 ImageNet 上达到了 78.3% 的 top-1 精度。DINO 还研究了自监督训练中的 momentum encoder，multi-crop training 以及在 ViT 中使用小 Patch 的技巧。

自监督训练得到的 ViT 包含关于图像语义分割的显式信息，这在以往的有监督训练和卷积网络里面都是不具备的。这些特征也是优秀的 k-NN 分类器，ViT-Small 在 ImageNet 上达到了 78.3% 的 top-1 精度。DINO 还研究了自监督训练中的 momentum encoder，multi-crop training 以及在 ViT 中使用小 Patch 的技巧。

相比于监督学习需要人为地提供标签告诉模型这是什么，自监督学习无须任何“显示”标签，只需输入图像通过某种机制便能让网络学会理解图像本身的语义信息。例如，我们可以通过图像旋转、随机裁剪等变换，使模型学习到不同角度、不同尺度下的特征。另外，也可以通过模型自身的预测来构建任务，例如预测图像的局部块、颜色等等。这些任务由于不需要人类标注，因此可以在大规模的无标签数据上进行训练，从侧面上提供了一种从无标签数据中学习特征表示的新方法，它可以帮助我们更好地利用现有数据资源，解决监督学习中的一些瓶颈问题。

回到正题，DINO 的核心思想便是通过在大规模的无标签数据集上进行对比学习，学习出一组具有可传递性的视觉特征表示。在 DINO 中，作者通过引入一个新的对比学习方法，将原始图像的特征与随机裁剪的图像的特征进行对比，从而学习到更好的视觉通用表征，最终也获得了非常出色的效果。

DINO 这个名称可以理解为是由 Distillation 和 NO labels 这两个词组成的缩写，既表达了DINO采用自蒸馏方法的特点，也突出了它是一种基于无监督学习的模型。具体来说，DINO 是使用一种称为“无监督自蒸馏”的方法，该方法通过自监督学习来学习模型的知识表示。在这个方法中，模型使用自身的输出来生成“伪标签”，然后使用这些伪标签来重新训练模型，从而进一步提高模型的性能和泛化能力。

作为开始，我们给出一张动图，其非常生动形象的展示了贯穿 DINO 的整个框架和核心思想：

如上所示，DINO 本质上是一种自监督学习方法，通过无监督的方式学习图像特征表示，可用于计算机视觉的其他下游任务，例如分类和检测等。该方法的核心思想是使用一种叫做自蒸馏的方法，即将一个学生模型的表示与一个动量化的教师模型的表示进行比较，以学习出更好的特征表示。

在正式讲解具体细节前，我们可以先看看 DINO 整个处理流程的伪代码：

下面我们将分别从网络结构、数据增强、损失函数三大部分进行详细的介绍。

网络结构

正如我们上面提到过的，DINO 是采用自蒸馏(self-distillation)的方法学习的，其整体框架包含两个相同的架构，分别为教师网络和学生网络，具体的架构可以是 ViT 等 vision transformer 或者诸如 ResNet 等 CNNs 特征提取器，非常灵活方便。当然，通过下述消融实验也知道还是 ViT 的潜力更大。

然而，这种学生和教师网络均输出相同 embeddings 的情况容易出现模式崩塌(mode collapse)的现象。在《Momentum Contrast for Unsupervised Visual Representation Learning》一文中提出了一种解决方案，即应用“动量教师”(momentum tearcher)模型，可以简单地理解为就是教师的模型不是基于反向传播更新的，而是再对学生模型进行梯度回传后，在通过指数移动平均(Exponentially Weighted Average, EWA)，直接将学生网络学习到的模型参数更新给教师网络，换句话就是教师网络的权重更新自学生网络。

DINO 中便是沿用这种方式。具体地，我们可以简单看下教师权重的更新公式：

数据增强

DINO 中最核心的数据采样策略便是图像裁剪，这也是自监督学习领域应用非常广泛的主策略之一。一般来说，我们可以将裁剪后的图像分为两种：

Local views: 即局部视角，也称为 small crops，指的是抠图面积小于原始图像的 50%；

Global views: 即全局视角，也称为 large crops，指的是抠图面积大于原始图像的 50%；

在 DINO 中，学生模型接收所有预处理过的 crops 图，而教师模型仅接收来自 global views 的裁剪图。据作者称，这是为了鼓励从局部到全局的响应，从而训练学生模型从一个小的裁剪画面中推断出更广泛的上下文信息。

简单来说，就是把局部特征和全局特征分别交给不同的模型来学习，以便在处理整个图像时，能够更好地对局部细节和上下文进行综合判断。

此外，为了使网络更加鲁邦，DINO 中也采用一些其它的随机增强，包括：

颜色扰动(color jittering)

高斯模糊(Gaussian blur)

曝光增强(solarization)

损失函数

在 DINO 中，教师和学生网络分别预测一个一维的嵌入。为了训练学生模型，我们需要选取一个损失函数，不断地让学生的输出向教师的输出靠近。softmax 结合交叉熵损失函数是一种常用的做法，来让学生模型的输出与教师模型的输出匹配。具体地，通过 softmax 函数把教师和学生的嵌入向量尺度压缩到 0 到 1 之间，并计算两个向量的交叉熵损失。这样，在训练过程中，学生模型可以通过模仿教师模型的输出来学习更好的特征表示，从而提高模型的性能和泛化能力。

当然，这也可以看作是一个分类问题，以便网络可以从局部视图中学习更有意义的全局表示。

DINO Flow

Centering and Sharpening

在 DINO 论文中，还有两个不得不提的点便是 Centering 和 Sharpening，这是用于防止模式崩塌的两种有效方式。

在自监督学习中，mode collapse 是指网络的学习过程中出现了多样性减少的现象。具体来说，当网络学习到一组特征表示时，往往会出现多个输入数据映射到相同的特征表示的情况，这就是所谓的模式崩塌。这种现象通常是由于网络在优化过程中陷入了局部最优解，只能考虑到一部分数据的特征表示，而忽略了其它数据样本的模式和特征，从而导致了多样性缺失的现象，因此会对模型的鲁棒性产生很大的负面影响。

先来看下 Centering。首先，教师模型的输出经过一个 EMA 的操作，从原始激活值中减去得到一个新的结果。简单来说，可以表述为下列公式：

这个操作的目的是使得激活值有时候是正的（当它们高于平均值时），有时候是负的（当它们低于平均值时）。由于 softmax 函数在处理负数时会给出较小的概率值，而在处理正数时会给出较大的概率值，因此这种操作能够防止任何一个特征占据统治地位，因为平均值会在值的范围中间。

最后，再看看 Sharpening。这种技巧通过在 softmax 函数中加入一个 temperature 参数，来强制让模型将概率分布更加尖锐化。由于小差异会被夸大，这会防止所有激活值都是相同的，因为小的差异也会被放大。这个技巧和中心化操作搭配使用，可以使得激活值不断变化，从而引导学生模型更好地了解哪些特征应该变得更加强大。

实验

首先，看下这张效果图：

可以看出，DINO 是能够自动学习特定于类别(class-specific)的特征，从而实现准确的无监督对象分割。

其次，我们将此模型应用于未受过训练的场景，例如用于识别重复图像：

可以看出，DINO 的表现也优于现有的最先进模型，尽管它起初并不是为这一目的设计的！

通过以上可视化结果不难看出，相比于监督学习，DINO 的潜在空间也具有很好的分离类别，这意味着它的特征足够丰富，可以分离物体中的微小差异，这使得它非常适合下游任务和迁移学习。

最后，我们通过 t-SNE 可视化一起看看 DINO 的整个学习表征过程：

Amazing!

DINO 训练策略

DINO 中的 ViT 架构使用 DeiT 的实现，Patch Size 使用8或者16。DINO 也像 ViT 那样给模型加了一个 [CLS] token，即使它没有附加到任何标签或监督信息。Self-attention 机制更新这个 token。

在评估时，除了 linear evaluation 和 finetuning evaluation 之外，作者还额外尝试了 k-NN evaluation。作者冻结了预训练模型，然后存储下游任务训练数据的特征。

DINO 网络架构

消融实验结果

不同组件的作用

Patch Size 的作用

教师模型训练策略的作用

避免坍塌

总结

DINO，这是第一篇探索 ViT 模型在自监督学习领域的经典代表作。DINO 整体架构基于自蒸馏的范式进行构建，包含一个教师网络和学生网络。其中，学生网络学习从局部补丁预测图像中的全局特征，该补丁受动量教师网络嵌入的交叉熵损失的监督，同时进行居中和锐化以防止模式崩溃。

在 DINO 诞生的时期，视觉 Transformer 与 ConvNet 相比才刚刚具备竞争力，但是那是还没有明显的优势。而且，当时视觉 Transformer 对于计算量要求更高，需要更多的训练数据，且特征没有表现出独特的属性。

因此，本文想要探索一下 Transformer 成功的关键是不是来自 Self-supervised Learning。其主要的动机是 Transformer 在 NLP 中成功的主要原因就是 Self-supervised Learning，比如 BERT 的 Masked Language Modeling 或者 GPT 的 Language Modeling。自监督训练会根据上下文创建一个任务，这些任务相比于有监督训练的预测标签来讲，可以提供更加丰富的学习信号。同样的道理，图像的有监督训练是把图像中包含的丰富的视觉信息压缩到只有类别的标签信息。

因此，本文研究自监督预训练对 ViT 特征的影响。本文给出了几个有趣的观察，这些观察在以往的有监督训练以及卷积网络里面都没有：

自监督训练 ViT 得到的特征显式地包含场景布局，尤其是对象的边界。这个信息一般在自监督训练的视觉 Transformer 的最后一个 Block 得到，如图1所示。这个发现作者认为几乎是所有的自监督学习方法的共同特性。

自监督训练的视觉 Transformer 的特征可以在不经过任何微调，线性分类器，以及数据增强的前提下，仅仅使用最简单的 k-NN 分类器，就能实现 78.3% 的 top-1 ImageNet 精度。这个发现作者认为并不是所有自监督方法的共性，而是仅仅当包含一些特殊的组件比如 momentum encoder，或者使用了特殊的数据增强比如 multi-crop augmentation 的时候才会出现。

DINO 算法伪代码如下。

# gs, gt: student and teacher networks
# C: center (K)
# tps, tpt: student and teacher temperatures
# l, m: network and center momentum rates
gt.params = gs.params
for x in loader: # load a minibatch x with n samples
    x1, x2 = augment(x), augment(x) # random views

    s1, s2 = gs(x1), gs(x2) # student output n-by-K
    t1, t2 = gt(x1), gt(x2) # teacher output n-by-K

    loss = H(t1, s2)/2 + H(t2, s1)/2
    loss.backward() # back-propagate

    # student, teacher and center updates
    update(gs) # SGD
    gt.params = l*gt.params + (1-l)*gs.params
    C = m*C + (1-m)*cat([t1, t2]).mean(dim=0)

def H(t, s):
    t = t.detach() # stop gradient
    s = softmax(s / tps, dim=1)
    t = softmax((t - C) / tpt, dim=1) # center + sharpen
    return - (t * log(s)).sum(dim=1).mean()

#UNet v2

一种新的U-Net变体U-Net v2被引入，该变体具有改进医学图像分割的新颖和简单跳过连接设计。这种设计通过使用哈达马乘法将语义信息从高级特征和从低级特征中获取的更精细的细节集成到由编码器生成的特征图的每个级别中。在Skin Lesion和Polyp Segmentation数据集上的实验验证了作者的U-Net v2的有效性。比UNet显存占用更少、参数更少，猛涨20个mIoU

在本文中，作者介绍了一种新的、鲁棒且高效的U-Net变体，用于医学图像分割。它的目标是同时增强低级特征中的语义信息注入，并使用更细的细节精炼高级特征。对于输入图像，作者首先使用深度神经网络编码器提取多级特征。接下来，通过将高级特征的语义信息与低级特征的细粒度信息通过哈达马乘积相结合，增强每级特征图。作者的新跳过连接使所有级别的特征都具有丰富的语义特性和复杂的细节。改进的特征随后被传输到解码器进行进一步处理和分割。作者的方法可以无缝集成到任何编码器-解码器网络中。

作者在几个公共的医学图像分割数据集上评估本文的方法，包括皮肤病变分割和息肉分割，实验结果表明，与最先进的方法相比，新方法具有更高的分割精度，同时保持了内存和计算效率。

代码：https://github.com/yaoppeng/U-Net_v2

1 Introduction

随着现代深度神经网络的进步，语义图像分割取得了显著的进展。语义图像分割的典型范式涉及一个编码器-解码器网络，其中包含跳过连接。在这个框架中，编码器从输入图像中提取分层的和抽象的特征，而解码器则使用编码器生成的特征图，以像素为单位重建分割掩膜或图，并对输入图像中的每个像素分配一个类标签。已经进行了一系列研究，以将全局信息集成到特征图，并增强多尺度特征，从而在分割性能方面取得了显著的改进。

在医学图像分析领域，准确的图像分割在计算机辅助诊断和分析中起着关键作用。U-Net最初用于医学图像分割，利用跳过连接在每个级别的编码器和解码器之间进行连接。跳过连接使解码器能够访问来自较早的编码器阶段的特征，因此同时保留了高级语义信息和细粒度空间细节。这种方法便于在医学图像中精确划分对象边界和提取小结构。此外，采用密集连接机制通过将所有级别的所有阶段的特征连接在一起来减少编码器和解码器之间特征的差异。设计了一种机制，通过将来自较高和较低级别的不同尺度的特征连接在一起来增强特征。

然而，基于U-Net的模型中的这些连接可能并不足以有效地集成低级和高级特征。例如，在ResNet中，一个深度神经网络被构建为一个多个浅层网络的集成，并且明确添加的残差连接表明，即使在一个亿像素图像数据集上进行训练，网络也很难学习身份映射函数。

关于编码器提取的特征，低级特征通常保留更多的细节，但缺乏足够的语义信息和可能包含不希望的噪声。相比之下，高级特征包含更多的语义信息，但由于分辨率显著降低，因此缺乏精确的细节（例如，对象边界）。简单地将特征通过串联进行融合将严重依赖于网络的学习能力，这通常与训练数据集的大小成正比。这是一个具有挑战性的问题，尤其是在医学影像的背景下，通常受到数据的限制。通过在多个级别之间通过密集连接串联低级和高级特征，可能限制不同级别信息的贡献，并可能引入噪声。另一方面，尽管新增的卷积操作并未显着增加参数数量，但GPU内存消耗将上升，因为所有中间特征图和相应的梯度都必须在正向传播和反向梯度计算中进行存储。这导致GPU内存使用和浮点运算（FLOPs）的增加。

在[8]中，反向注意力被用来明确建立多尺度特征之间的联系。在[9]中，ReLU激活被应用到高级特征，并将激活的特征与低级特征相乘。此外，在[10]中，作者提出分别从CNN和Transformer模型中提取特征，将CNN和Transformer分支在多个级别上的特征组合，以增强特征图。然而，这些方法都较为复杂，且其性能尚不令人满意，因此需要进一步改进。

在本文中，作者提出了一种新的基于U-Net的分割框架，具有简单且高效的跳过连接。作者的模型首先使用CNN或Transformer编码器提取多级特征图。接下来，对于第i级的特征图，作者通过简单的哈达马乘法操作明确注入包含更多语义信息的高级特征和包含更精细细节的低级特征，从而增强第i级特征的语义和细节。随后，优化的特征被传输到解码器进行分辨率重建和分割。

作者的方法可以无缝集成到任何编码器-解码器网络中。作者在两个医学图像分割任务上评估了作者的新方法，即皮肤病变分割和息肉分割，使用了公开可用的数据集。实验结果表明，作者的U-Net v2在这些分割任务上始终优于最先进的方法，同时保持FLOPs和GPU内存效率。

2 Method

Overall Architecture

Semantics and Detail Infusion (SDI) Module

3 Experiments

Datasets

作者使用以下数据集来评估作者的新U-Net v2。

ISIC数据集：用于皮肤病变分割的两个数据集是：ISIC 2017，包含2050张皮肤病变镜像，ISIC 2018，包含2694张皮肤病变镜像。为了公平比较，作者遵循[13]中规定的训练/测试划分策略。

息肉分割数据集：作者使用了五个数据集：Kvasir-SEG，ClinicDB，ColonDB，Endoscene和ETIS。为了公平比较，作者遵循[8]中的训练/测试划分策略。具体而言，ClinicDB中的900张图像和Kvasir-SEG中的548张图像被用作训练集，其余图像被用作测试集。

Experimental Setup

如同[13]中的方法, 作者在ISIC数据集上报告DSC (Dice相似系数) 和IoU (交并比) 得分。对于息肉数据集, 作者报告DSC, IoU和MAE (平均绝对误差) 得分。每个实验运行 5 次, 报告平均结果。作者使用Pyramid Vision Transformer (PVT) 作为特征提取的编码器。

Results and Analysis

在ISIC数据集上的比较结果如表1所示。如所示，作者提出的U-Net v2在ISIC 2017和ISIC 2018数据集上分别将DSC分数提高了1.44%和2.48%，并将IoU分数提高了2.36%和3.90%。这些改进证明了作者的提出的方法将语义信息和更精细的细节注入每个特征图的有效性。

息肉分割数据集上的比较结果如表2所示。如所示，作者提出的U-Net v2在Kavasir-SEG，ClinicDB，ColonDB和ETIS数据集上分别超过了Poly-PVT，在这些数据集上的DSC分数分别提高了1.1%，0.7%，0.4%和0.3%。这进一步证明了作者在每个级别将语义信息和更精细的细节注入特征图的提出方法的一致有效性。

Ablation Study

作者使用ISIC 2017和ColonDB数据集进行消融研究，以检查作者的U-Net v2的有效性，具体如表3所示。具体而言，作者使用PVT模型作为UNet++的编码器。请注意，当作者的SDI模块被移除时，U-Net v2退化为一个普通的U-Net，具有PVT Backbone。

SC表示SDI模块内的空间和通道注意。从表3可以看出，与没有SDI的U-Net v2（即具有PVT编码器的U-Net）相比，UNet++表现出轻微的性能降低。这种下降可能归因于由密集连接生成的多级特征的简单串联，这可能会使模型困惑并引入噪声。表3证明了SDI模块对整体性能的贡献最大，这突出了作者提出的跳过连接（即SDI）始终产生性能改进的一致性。

Qualitative Results

一些在ISIC 2017数据集上的定性示例如图2所示，这些示例证明了作者的U-Net v2能够将语义信息和更精细的细节集成到每个特征图，因此作者的分割模型可以捕捉到物体边界的更细微细节。

Computation, GPU Memory, and Inference Time

为了检查作者的U-Net v2的计算复杂性、GPU内存使用和推理时间，作者在表4中报告了作者的方法U-Net、UNet++的参数、GPU内存使用、FLOPs和FPS。所有实验都使用float32作为数据类型，导致每个变量使用4B的内存。GPU内存使用记录了在正向/反向传播过程中存储的参数和中间变量的尺寸。表示输入图像的大小。所有测试都在NVIDIA P100 GPU上进行。

在表4中，作者可以观察到UNet++引入了更多的参数，并且由于在密集正向过程中存储了中间变量（例如，特征图），其GPU内存使用更大。通常，这些中间变量比参数消耗更多的GPU内存。此外，U-Net v2的FLOPs和FPS也优于UNet++。与U-Net（PVT）相比，作者的U-Net v2的FPS减少是有限的。

4 Conclusions

一种新的U-Net变体U-Net v2被引入，该变体具有改进医学图像分割的新颖和简单跳过连接设计。这种设计通过使用哈达马乘法将语义信息从高级特征和从低级特征中获取的更精细的细节集成到由编码器生成的特征图的每个级别中。在Skin Lesion和Polyp Segmentation数据集上的实验验证了作者的U-Net v2的有效性。复杂性分析表明，U-Net v2在FLOPs和GPU内存使用方面也具有效率。

#SSD-Det

这里提出了一种基于空间自蒸馏的对象检测器（SSD-Det）来挖掘空间信息，以自蒸馏的方式细化不准确的框。

paper：https://arxiv.org/pdf/2307.12101.pdf

code：https://github.com/ucas-vg/PointTinyBenchmark/tree/SSD-Det

本文要解决的问题：

在目标检测任务中，当只有不精确的bounding box作为监督信号时，模型的检测性能会显著下降。而获取精确的bounding box标注又非常耗时费力。那么如何利用这些不精确的bounding box来训练更加鲁棒的目标检测模型？

具体而言：

获取精确的bounding box标注代价高昂且具有挑战性。
直接使用不精确的bounding box会导致目标漂移、组预测和局部关键区域预测等问题。
以往的方法通常依赖类别信息进行框的选择和调整，没有充分利用空间信息。

为了解决这些问题，本文提出基于空间自蒸馏的目标检测网络SSD-Det(Spatial Self-Distillation based Object Detector)。主要贡献是：

提出了SPSD( Spatial Position Self-Distillation)模块，利用空间信息生成更高质量的候选框。
提出了SISD( Spatial Identity Self-Distillation)模块，预测每个候选框与目标的空间IoU，辅助选择最佳框。
SPSD和SISD模块相结合，有效利用了空间信息和类别信息，显著提升基于不精确box的目标检测性能。
在MS-COCO和VOC数据集上进行实验表明，该方法优于其它state-of-the-art方法。

方法

本文目标是用不精确的边界框学习一个稳健的检测器。本文设计一个分支来细化不精确的边界框，然后用细化的框训练检测器头或检测器。最重要的部分是如何设计细化策略。本文首先设计了一个基本的两阶段框细化器(图3中的灰色区域)，作为原始解决方案。然后，提出SPSD和SISD并添加到其中，以进一步利用空间线索进行框细化，产生SSD-Det。总体损失函数公式化为：

主要创新模块

本文主要创新包含三大模块：Basic Box Refiner模块，SPSD模块以及SISD模块（见figure3）。这三者的作用、关系及联系如下：

Basic Box Refiner

(1) 作用：提供基础框架，依赖分类信息进行候选框精炼。

(2) 原理：

对每个物体生成候选框组成bag
使用分类分支预测每个框属于各类别的概率
使用实例分支预测每个框被选中的概率
计算分类概率和实例概率的乘积作为框的得分
选择得分最高的前k个框，计算其加权平均作为精炼结果

(3) 问题：仅依赖分类信息容易导致目标漂移、组预测等问题

SPSD

(1) 作用：1、改进候选框的生成；2、使用空间信息提升框质量；3、为后续精炼提供更好的上限

(2) 原理：

输入：Basic Box Refiner产生的候选框
输出：更高质量的候选框
预测更准确的框来优化候选框的生成
使用回归网络学习候选框之间的空间对应关系
监督信号是不精确的ground truth框
预测框与ground truth框的空间偏差
利用学习到的空间知识纠正基础框生成模块的误差
迭代优化，产生更准确接近ground truth的候选框

SISD

(1) 作用：1、改进候选框的选择；2、引入空间信息，缓解目标漂移、组预测等问题；3、选择更准确的框进行精炼。

(2) 原理：

对每个候选框预测其与目标的空间IoU
IoU与分类概率相结合作为新得分进行选择

(3) 效果：

引入空间信息，缓解目标漂移、组预测等问题
选择更准确框进行精炼

三者关系与联系

(1) Basic Box Refiner提供整体框架；(2) SPSD受Basic Box Refiner监督进行迭代训练；(3) SISD预测的IoU可指导Basic Box Refiner的选择；(4) 三者一起组成完整的端到端框精炼网络；(5) Basic Box Refiner依赖分类信息；(6) SPSD和SISD引入空间信息进行增强；(7) 三者相互配合达到更好的精炼效果。

总的来说Basic Box Refiner提供基础框架，SPSD和SISD是关键的创新点，引入空间信息增强鲁棒性，三者相互配合形成端到端的框精炼网络，但各自作用不同又相互补充，共同解决基于弱监督框的检测问题！

实验

实验设置

数据集和评估指标。MS-COCO和PASCAL VOC 2007。MS-COCO(2017版本)有118k训练和5k验证图像，包含80个常见对象类别。PASCAL VOC 2007是最流行的通用目标检测基准数据集之一，包含20个类别。

评估指标。COCO的平均精度(AP)和VOC的mAP@[0.5，0.95]及mAP@.5进行评估。报告{AP，AP50，AP75，AP小，AP中，AP大}指标。

合成嘈杂数据集。通过扰动原始标注中的干净框来模拟嘈杂的边界框。在VOC上模拟10%到40%的各种框噪声水平，在COCO上模拟{20%，40%}。

实现细节。本文基于MMDetection在FasterRCNN上用ResNet50-FPN backbone实现方法。所有设置与先前方法采用FPN以进行公平比较。与MS-COCO上的对象检测默认设置相似，本文在8个GPU上以每GPU2个图像的批量大小使用随机梯度下降算法进行1x训练计划进行优化。对于VOC数据集，批量大小为每GPU 2个图像，2个GPU。本文报告的是单尺度(COCO为1333 * 800，VOC为1000 * 600)的性能。

与SOTA的比较

在MS-COCO和VOC 2007数据集上与几种最新方法进行比较。Clean-FasterRCNN和Noisy-FasterRCNN分别表示在干净(原始标注)和嘈杂标注下默认设置训练的FasterRCNN模型。

MS-COCO数据集。表1显示了在MS-COCO上的比较结果。不精确的边界框标注明显降低了vanilla Faster R-CNN的检测性能。Co-teaching和SD-LocNet只轻微提高了检测性能，特别是在40%框噪声下。这表明小损失样本选择和样本权重分配无法很好地处理嘈杂的框标注。KL Loss略微改善了20%和40%框噪声下的性能。通过将对象视为实例包，OA-MIL在一定程度上对嘈杂的边界框具有鲁棒性，并优于其他方法。尽管如此，之前提到的标签分配包构建限制了其在重度噪声下的能力。本文的方法对嘈杂的边界框更具鲁棒性。它以大幅度优势击败其他方法，在高框噪声水平下显著提升了各项指标的性能。例如，在40%框噪声下，端到端的SSD-Det达到27.6 AP和53.9 AP50，相比最先进的方法OA-MIL分别提高9.0和11.3点。另外，通过在FasterRCNN上重新训练，性能进一步达到29.3 AP和54.8 AP50。使用ResNet-101作为backbone时，性能也获得一致的改进。在MS-COCO测试集上，本文的方法也取得了最先进的性能。

VOC 2007数据集。表2显示在VOC 2007测试集上的比较结果。Co-teaching、SD-LocNet和KL Loss无法很好地处理不精确的边界框标注。OA-MIL在不同的嘈杂数据集上改进了性能。本文的方法在10%、20%、30%和40%嘈杂框数据集上进一步改进，分别达到77.10、74.80、71.50和66.90 AP50。

消融实验分析

为进一步分析SSD-Det的有效性和鲁棒性，本文在COCO验证集上进行了更多消融实验。

模块消融。表3给出了本文方法中每个组件的消融研究，包括：(i) 基本框细化器的不同阶段。即不带第二阶段(2-Ref)训练对象检测器，其中第一阶段预测的伪框用作并行检测器的监督。(ii) SPSD，即不带SPSD训练，其中对象包（object-bag）直接通过围绕嘈杂真值或第一阶段预测的伪框的邻域采样构建。(iii) SISD。(iv) 使用FasterRCNN重新训练(Re-Train)。

SPSD有效性。如表3所示，SPSD在MS-COCO上进一步改进了检测性能，特别是在高框噪声水平下，例如在40%框噪声水平下，SPSD将性能从24.6提升到27.2。在表4中，本文对SPSD进行了进一步的切割。仅在第二阶段采用SPSD包构建，性能提高了1.4 AP。当使用第一阶段的建议分数作为权重时，性能进一步改进。在所有阶段都采用SPSD时，AP达到27.2。图5显示了包质量。使用SPSD后，平均IoU从40.3增加到58.7，最大值和前10个IoU增加到78.3和75.1，这表明提案选择的上限更好。更多高质量建议带来更好的优化和更容易的建议选择。

SPSD模块数量。如表6所示，添加3个SPSD时，性能略有下降，可能是由于错误累积超过额外阶段带来的性能提升。因此，2个SPSD是本文的默认设置。

SISD的有效性。SISD旨在在框选择中选择与对象相关的建议。在40%和20%框噪声下，检测性能分别从27.2提高到27.6和从33.0提高到33.6，这验证了该模块的有效性，如表3所示。本文还研究了SISD中的ORE策略(表5)。对象特征F+j与建议特征Fj的减法或拼接都不起作用。使用加法策略时，性能为27.60。如果SISD共享两个fc层，则性能降至22.99，因为优化目标是相互矛盾的(身份区分同一类别中的对象)。如果直接使用RoI特征而没有ORE，性能下降到27.32 AP，验证了对象相关性策略的有效性。重新训练的影响。与大多数WSOD方法一样，本文通过训练一个完全监督的检测器(例如Faster R-CNN或RetinaNet)来进行回归对象位置以获得更精确的结果。如表7所示，本文在40%和20%噪声数据集上获得了更好的结果，分别为20.29 AP和34.37 AP。本文还发现，如果SSD-Det仅训练细化器并使用伪标签训练FasterRCNN，结果很好但低于联合训练后重新训练给出的结果(表7第1行)。这是因为联合训练有利于框细化。

在不同检测器上的实验。本文在本文方法细化的框上重新训练最近的检测器，例如SparseRCNN和Deformable DETR。表8验证了本文的方法实现了一致的改进。

可视化和讨论。图4显示OA-MIL面临小或重叠对象的缺失实例和部分预测问题，而本文的方法效果仍很好。为了更好地直观地理解SISD和SPSD，本文在图5中可视化了SSD-Det中包构建的质量。然后，本文对“漂移”、“组”和“局部支配”问题进行了分解。

本文统计计算基线和本文的三种噪声类型的“坏”细化框(与真值IoU较小)的比例，如表9所示。漂移、组和局部问题从15.1%、6.7%、2.8%降低到1.5%、1.7%、1.0%，表明本文的改进。

真实生活嘈杂标注实验。真实生活嘈杂标注源自：低质量数据(例如遮挡、模糊)、人类标注错误和自动机器标注器局限性。来自人为错误的噪声相当主观，因为标注者之间的差异。为了更客观的分析，使用来自机器标注器的嘈杂标注进行实验。本文将好的训练过的Faster R-CNN应用于Objects365图像，生成Objects-F数据集，应用于COCO-val图像生成COCO-F数据集。使用P2BNet（基于点的标注器）用于COCO-val图像带点标注生成COCO-P数据集。SSD-Det有效改进了低质量框。如表10所示，使用SSD-Det的细化，Objects-F(从44.3提高到47.0)、COCO-F(从45.1提高到48.2)和COCO-P(从55.6提高到65.2)数据集的平均IoU均有所提高。此外，所有数据集的可靠标注比例增加，噪声类别的频率(局部、过大和位移)均有所降低。

结论

本文主要解决目标检测任务中，当只有不精确的bounding box作为监督信号时，模型的检测性能会显著下降的问题，在工程实际中，特别是标注资源较少时，将大模型进行预标注结果直接拿来训练，具有较大实用价值！

#Plain-DETR

无多尺度特征图&特定局部约束，DETR无痛涨点！微软亚研院提出DETR最强改进策略,改进原始的DETR检测器，同时保持其“简单”的特性：没有多尺度特征图，也没有交叉注意力计算的局部性设计。

论文提出了一种改进的DETR检测器，保持了“简单”的特性：使用单一尺度的特征图和全局交叉注意力计算，而没有特定的局部约束，与之前领先的基于DETR的检测器形成对比，后者重新引入了多尺度和局部性的架构归纳偏见到解码器中。作者展示了在“简单”设计内两种简单的技术出奇制胜，以弥补多尺度特征图和局部性约束的不足。

第一种是将一个BBox到像素的相对位置偏差（BoxRPB）项添加到交叉注意力的公式中，这个项可以很好地引导每个查询关注对应的目标区域，同时提供编码的灵活性。
第二种是基于Mask图像建模（MIM）的Backbone预训练，有助于学习具有精细定位能力的表示，并且在弥补多尺度特征图的依赖方面至关重要。

通过整合这些技术和最近在训练和问题制定方面的进展，改进的“简单”DETR相对于原始的DETR检测器表现出了显著的改进。通过利用Object365数据集进行预训练，它在使用Swin-L Backbone的情况下实现了63.9的mAP准确率，这在竞争激烈的最新检测器中是非常有竞争力的，所有这些检测器都严重依赖多尺度特征图和基于区域的特征提取。

代码：https://github.com/impiga/Plain-DETR

最近NLP领域的革命性进展突显了将任务特定的 Head 或解码器保持尽可能通用、简单和轻量化的重要性，并将主要精力转向构建更强大的大规模基础模型。然而，计算机视觉社区通常继续专注于任务特定 Head 的调整和复杂性，导致设计变得越来越繁重和复杂。

基于DETR的目标检测方法的发展也遵循了这个轨迹。原始的DETR方法令人印象深刻，因为它放弃了复杂和领域特定的设计，比如多尺度特征图和需要专门理解特定目标检测问题的基于区域的特征提取。然而，该领域的后续发展重新引入了这些设计，虽然提高了训练速度和准确性，但也违反了“更少的归纳偏见”的原则。

在这项工作中，作者的目标是改进原始的DETR检测器，同时保持其“简单”的特性：没有多尺度特征图，也没有交叉注意力计算的局部性设计。这是具有挑战性的，因为目标检测器需要处理不同尺度和位置的目标。尽管最新的训练和问题制定方面取得了一些进展，如表1所示，但普通DETR方法仍然远远落后于利用多尺度特征图和基于区域的特征提取设计的最新检测器。

那么，在解决多尺度和任意位置目标的架构“归纳偏见”方面，作者该如何补偿呢？作者的探索发现，在这种情况下，尽管不是全新的，但两种简单的技术出奇制胜：

BBox到像素的相对位置偏差（BoxRPB）
Mask图像建模（MIM）预训练

BoxRPB受到了视觉Transformer中相对位置偏差（RPB）项的启发，它编码了像素之间的几何关系，并增强了平移不变性。BoxRPB将RPB扩展到编码4D框和2D像素之间的几何关系。作者还提出了一种用于高效计算的轴向分解方法，与使用完整项相比，不会损失精度。

作者的实验表明，BoxRPB项可以很好地引导交叉注意力计算，使其专注于各个目标（见图4），并将检测准确性显著提高了+8.9 mAP，达到了COCO基准上37.2 mAP的普通DETR Baseline （见表2）。

MIM预训练的利用是提高普通DETR性能的另一项关键技术。作者的结果还表明，在普通DETR Baseline 的基础上，MIM预训练可以显著提高+7.4 mAP（见表2），这可能归因于它的精细定位能力。虽然MIM预训练已经被证明可以适度提高其他检测器的性能，但在普通设置中，它的影响深远。

此外，这项技术已经被证明是消除从Backbone中使用多尺度特征图的必要性的关键因素，从而利用分层Backbone或单一尺度 Head 的检测器。

通过整合这些技术和在训练和问题制定方面的最新进展，作者改进的“简单”DETR在原始DETR检测器的基础上取得了显著的改进，如图1所示。

此外，作者的方法在利用Object365数据集进行预训练时实现了63.9 mAP的准确性，使其与依赖多尺度特征图和基于区域特征提取技术的最新目标检测器（如级联R-CNN和DINO等）相比，具有很高的竞争力。

除了这些成果，作者的方法还示范了如何在设计任务特定 Head 或解码器时最小化架构“归纳偏见”，而不是依赖于特定于检测的多尺度和局部化设计。作者的研究希望激发未来的研究，使用通用的普通解码器，例如DETR的解码器，来解决更广泛范围的视觉问题，以最小的努力，从而使该领域能够更多地将精力转向开发大规模基础视觉模型，类似于NLP领域的情况。

现代化的普通DETR Baseline

原始DETR的回顾

原始DETR检测器由3个子网络组成：

DETR框架具有以下几个优点，包括：

在概念上直观且通用适用。它将目标检测视为像素到目标的“翻译”任务，具有将图像像素解码成问题目标的通用概念。
由于使用端到端的集合匹配损失，因此需要最少的领域知识，例如自定义标签分配和手工设计的非极大值抑制。
避免了领域特定的多尺度特征图和基于区域的特征提取。

增强型普通DETR Baseline

基本设置

作者的基本设置大部分遵循原始的DETR框架，除了以下的调整：

接下来，作者将一些最新的训练和问题制定的进展融入到基本设置中，并逐渐提高检测精度，如表1所示。

将Transformer编码器合并到Backbone网络中

Backbone网络和Transformer编码器的作用是对图像特征进行编码。作者发现，通过利用Vision Transformer Backbone网络，作者能够将Transformer编码器的计算预算合并到Backbone网络中，略微提高了性能，可能是因为有更多的参数进行了预训练。

具体来说，作者使用了Swin-S Backbone网络，并移除了Transformer编码器。这种方法与原始的Swin-T加6层Transformer编码器相比，计算FLOPs相似。这种方法简化了整个DETR框架，只包括一个Backbone（编码器）和一个解码器网络。

更好的分类使用Focal Loss

使用Focal Loss替换默认的交叉熵损失，将检测精度从23.1 mAP提高到31.6 mAP。

迭代优化

作者遵循迭代优化方案，使每个解码器层对前一个解码器层产生的最新边界框进行边界框增量预测，而不像原始的DETR在每个Transformer解码器层内使用独立的预测。这个策略将检测精度提高了+1.5 mAP，达到了33.1 mAP。

基于内容的查询

根据图像内容生成目标查询。选择置信度最高的300个预测作为后续解码过程的查询。用于生成目标查询的是一个集合匹配损失，因此保持了不需要领域特定的标签分配策略的优点。这个修改使检测精度提高了+0.9 mAP，达到了34.0 mAP。

Look forward twice

作者采用了向前看两次的策略，以利用先前Transformer解码器层中精炼的边界框信息，从而更有效地优化相邻Transformer解码器层之间的参数。这个修改产生了+0.8 mAP的改进。

混合查询选择

原始的一对一集合匹配在训练正样本方面效果不佳。有一些方法通过辅助的一对多集合匹配损失来改善效果。作者选择了混合匹配方法，因为它保留了不需要额外的手工标注噪声或分配设计的优点。这个修改使检测精度提高了+2.0 mAP，达到了最终的37.2 mAP。

BBox到像素的相对位置偏差

在这一节中，作者介绍了一项简单的技术，即BBox到像素的相对位置偏差（BoxRPB），这项技术对于弥补缺乏多尺度特征和明确的局部交叉注意力计算非常关键。

原始的DETR解码器采用标准的交叉注意力计算：

其中X和O分别是每个目标查询的输入和输出特征；Q、K和V分别是Query、Key和Value特征。如图4所示，原始的交叉注意力计算通常会在普通DETR框架内关注与目标无关的图像区域。作者推测这可能是其精度远低于多尺度和明确局部设计的原因之一。受到像素到像素相对位置偏差在视觉Transformer架构中的成功启发，作者探讨了用于交叉注意力计算的BBox到像素相对位置偏差（BoxRPB）的使用：

其中B是由BBox和像素之间的几何关系确定的相对位置偏差。

与原始的相对位置偏差（RPB）定义在2D相对位置上不同，BoxRPB需要处理一个更大的4D几何空间。接下来，作者介绍两种实现变体。

一种简单的BoxRPB实现

作者改编了连续RPB方法来计算4D BBox到像素相对位置偏差。原始的连续RPB方法通过应用于相应的2D相对坐标上的元网络来为每个相对位置配置产生偏差项。在将这种方法扩展为BoxRPB时，作者使用左上角和右下角来表示一个BBox，并使用这些角点与图像像素点之间的相对位置作为元网络的输入。

作者的实验表明，这种简单的实现已经非常有效，如表3a所示。然而，它将消耗大量的GPU计算和内存预算，因此不实际。

分解的BoxRPB实现

现在，作者提出了一种更高效的BoxRPB实现。作者不是直接计算4D输入的偏差项，而是考虑将偏差计算分解为两个项：

通过分解，计算FLOPs和内存消耗都大大减少，而准确性几乎保持不变，如表3a所示。这种基于分解的实现在作者的实验中是默认的。

图4显示了BBox到像素的相对位置偏差对交叉注意力计算的影响。总的来说，BoxRPB项使关注更加集中在目标和边界上，而没有BoxRPB的交叉注意力可能会关注许多无关的区域。这可能解释了BoxRPB项如何显著提高了8.9个mAP，如表2所示。

更多改进

在这一节中，作者介绍另外两项可以进一步改善普通DETR框架的技术。

MIM预训练

作者利用最近的掩膜图像建模预训练的先进技术，这些技术已经显示出更好的局部性。具体来说，作者使用SimMIM预训练权重来初始化Swin Transformer Backbone网络，这些权重是在没有标签的ImageNet上学习的。

如表2所示，MIM预训练相对于作者的普通DETR Baseline 带来了+7.4个mAP的提升。与其他检测器相比，在普通DETR框架上进行的MIM预训练的显著增益可能突显了对普通DETR框架的学习本地化能力的重要性。

在已经涉及BoxRPB的更高 Baseline 上，MIM预训练仍然可以带来+2.6个mAP的增益，达到48.7个mAP。

此外，作者注意到，MIM预训练对于使作者放弃多尺度Backbone特征也至关重要，几乎没有损失准确性，如表5b和5c所示。

重新参数化的边界框回归

作者想要强调的另一项改进是在执行边界框回归时进行边界框的重新参数化。

原始的DETR框架和大多数其变种直接将边界框的中心和大小缩放到[0,1]。由于大目标主导了损失计算，因此它在检测小目标时会遇到困难。相反，作者将l-th解码器层的边界框中心和大小重新参数化为：

消融研究与分析

BBox相对位置偏差的重要性

在表3中，作者研究了BoxRPB方案中每个因素的影响，并在以下讨论中报告了详细的比较结果。

轴向分解的影响

在表3a中，作者比较了这两种方法，并发现轴向分解方案在性能上达到了可比较的水平（50.9 vs. 50.8），同时需要更低的内存占用（9.5G vs. 26.8G）和更小的计算开销（5.8G FLOP vs. 265.4G FLOP）。

BBox点的影响

表3b显示了仅使用中心点或两个角点的比较。作者发现仅应用中心点可以将 Baseline （表2的第四行）提高+1.7 AP。然而，其性能不如使用两个角点的性能。

特别是，虽然这两种方法实现了可比较的AP50结果，但利用角点可以将AP75提高+2.2。这表明，不仅位置（中心），而且查询框的尺度（高度和宽度）对于精确建模相对位置偏差非常重要。

隐藏维度的影响

作者研究了方程5中隐藏维度的影响。如表3c所示，较小的隐藏维度为128将导致性能下降0.5，表明位置关系并不简单，需要更高维度的空间来建模。

与其他方法的比较

作者研究了选择其他方案来计算方程2中的调制项B的影响。作者与以下几种代表性方法进行了比较：

条件交叉注意力方案，它根据条件空间（位置）查询嵌入和空间关键查询嵌入之间的内积来计算调制项。
DAB交叉注意力方案，它基于条件交叉注意力，并进一步使用框宽度和高度信息调制位置关注图。
空间调制交叉注意力方案（SMCA），它设计了手工制作的查询空间先验，使用类似于2D高斯的权重图来实现，以约束关注的特征在目标查询的初始估计周围。

表3d报告了详细的比较结果。作者的方法在所有方法中表现最佳。具体来说，条件交叉注意力模块在仅使用中心点的情况下实现了与作者的设置（表3b的第一行）相似的性能。DAB交叉注意力和SMCA略优于条件交叉注意力模块，但它们仍然落后于BoxRPB，分别差2.5 AP和2.2 AP。

作者还根据其官方开源代码将BoxRPB与基于DAB交叉注意力进行了比较。用BoxRPB替换DAB位置模块实现了+1.8个mAP的性能提升。

与局部注意力方案的比较

在这一节中，作者将作者的全局注意力模式与其他代表性的局部交叉注意力机制进行了比较，包括可变形交叉注意力、RoIAlign、RoI采样（在感兴趣区域内采样固定点）以及BBox Mask。作者详细说明了这些方法之间的关键差异。如表4所示，作者的方法超越了所有局部交叉注意力的变种。此外，作者观察到大目标对作者的方法有更大的改进。DETR中也报告了类似的观察结果，这可能是因为基于全局注意力模式的更有效的长距离上下文建模。

关于MIM预训练

作者探索了在使用或不使用MIM预训练的情况下，如何使用Backbone和解码器特征图的不同方式。作者评估了三种不同的架构配置的性能，如图3所示。作者如下讨论和分析结果。MIM预训练带来了一致的收益

解码器可以去掉多尺度特征图

这一观察结果并不平凡，因为大多数现有的检测头仍然需要多尺度特征作为输入，这使得构建一个竞争力强的单尺度纯DETR成为可能。作者希望这一发现可以简化未来检测框架的设计。

无需来自Backbone的多尺度特征图

通过比较表5b和表5c的结果，作者分析了从Backbone中去除多尺度特征图的影响。在使用监督预训练的Backbone时，仅采用来自Backbone的最后一个特征图将损害性能。

这些结果表明，MIM预训练可以降低对多尺度特征图的依赖。

从Backbone获得单一尺度特征图和从解码器获得单一尺度特征图已足够

基于以上观察，作者可以得出一个令人惊讶但重要的简单结论，即通过使用作者提出的BoxRPB方案和MIM预训练，完全可以消除Backbone和Transformer解码器中需要多尺度特征图的需要。

应用于纯ViT

在这一节中，作者通过将作者的方法应用于纯ViT，构建了一个简单而有效的全纯目标检测系统。作者的系统只在全纯Transformer编码器-解码器架构中使用单一分辨率特征图，没有任何多尺度设计或处理。作者将作者的方法与COCO数据集上的最先进的级联Mask R-CNN进行了比较。为了公平比较，作者使用了经过MAE预训练的ViT-Base作为Backbone，并对目标检测器进行了∼50个Epoch的训练。

如表8所示，作者的方法在没有依赖于多尺度特征图的情况下实现了与级联Mask R-CNN相当的结果，以更好地定位不同目标尺度。

值得注意的是，作者的方法没有使用通常被认为对目标检测有益的实例Mask注释进行训练。

交叉注意力图的可视化

图4显示了具有或没有BoxRPB的模型的交叉注意力图。对于具有BoxRPB的模型，交叉注意力集中在单个目标上。相反，没有BoxRPB的模型的交叉注意力会关注具有相似外观的多个目标。

系统级结果

SOTA对比

在本节中，作者将作者的方法与其他最先进的方法进行了比较。表7显示了结果，该表中报告的所有实验都使用Swin-Large作为Backbone。由于其他工作通常会应用编码器来增强Backbone特征，为了公平比较，作者还在Backbone之上堆叠了12个基于窗口的单尺度Transformer层（特征维度为256）。

通过36个训练Epoch，作者的模型在COCO test-dev集上实现了60.0的AP，超过了DINO-DETR 1.4 AP。进一步引入Objects365作为预训练数据集，作者的方法在test-dev集上达到了63.9的AP，比DINO-DETR和DETA有明显的提升。这些强大的结果验证了全纯DETR架构没有固有的缺点，可以实现高性能。

更简单的ViT结果

表8报告了基于纯ViT的更多比较结果。作者使用了主文第5.4节中描述的默认设置，采用了经过MAE预训练的ViTBase作为Backbone，并对模型进行了∼50个Epoch的训练。根据结果，作者观察到：

作者的方法将纯DETR Baseline 从46.5 AP提升到53.8 AP，仅使用全局交叉注意力方案处理单一尺度特征图
作者的方法胜过了强大的基于DETR的目标检测器，例如使用局部交叉注意力方案来利用多尺度特征图的Deformable DETR

Runtime Comparison with Other Methods作者在表9中进一步分析了不同交叉注意力调制的Runtime成本。与标准交叉注意力相比，BoxRPB略微增加了运行时，但与其他位置偏置方法具有相当的速度。

More Details of Local Attention Scheme图5展示了作者的方法与局部交叉注意力方法（如可变形交叉注意力、RoIAlign、RoI采样以及框Mask）之间的区别。大多数局部交叉注意力方法需要使用特殊的采样和插值机制构建稀疏的key-value空间。作者的方法使用所有图像位置作为key-value空间，并学习一个框到像素的相对位置偏差项（图（e）中的梯度粉色圆形区域）来调整注意力权重。这使得作者的方法比先前的方法更加灵活和通用。

关于COCO val的系统级比较表10比较了在使用Swin-Large作为Backbone网络时，作者的方法与以前的最新方法。在36个训练Epoch内，作者的模型在COCO验证集上实现了59.8的AP，超过了DINO-DETR的1.3个AP。通过使用Objects365的预训练，作者的方法获得了63.8 AP，远高于DINO-DETR。这些结果表明，借助作者的方法，改进后的普通DETR可以在没有固有限制的情况下实现竞争性能。

#Vitron

颜水成团队联合新加坡国立、南洋理工大学共同开源了Vitron模型，持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务，为下一代通用视觉大模型的终极形态奠定了基础，也标志着大模型迈向通用人工智能（AGI）的又一大步。

项目主页&Demo：https://vitron-llm.github.io/

论文链接：https://is.gd/aGu0VV

开源代码：https://github.com/SkyworkAI/Vitron

这是一款重磅的通用视觉多模态大模型，支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务，解决了困扰大语言模型产业已久的图像/视频模型割裂问题，提供了一个全面统一静态图像与动态视频内容的理解、生成、分割、编辑等任务的像素级通用视觉多模态大模型，为下一代通用视觉大模型的终极形态奠定了基础，也标志着大模型迈向通用人工智能（AGI）的又一大步。

Vitron作为一个统一的像素级视觉多模态大语言模型，实现了从低层次到高层次的视觉任务的全面支持，能够处理复杂的视觉任务，并理解和生成图像和视频内容，提供了强大的视觉理解和任务执行能力。同时，Vitron支持与用户的连续操作，实现了灵活的人机互动，展示了通向更统一的视觉多模态通用模型的巨大潜力。

Vitron相关的论文、代码和Demo已全部公开，其在综合性、技术创新、人机交互和应用潜力等方面展现出的独特优势和潜力，不仅推动了多模态大模型的发展，还为未来的视觉大模型研究提供了一个新的方向。

当前视觉大语言模型（LLMs）的发展取得了喜人进展。社区越来越相信，构建更通用、更强大的多模态大模型（MLLMs）将会是通向通用人工智能（AGI）的必经之路。但在向多模态通用大模型（Generalist）的迈进过程中，目前仍存在一些关键挑战。比如很大一部分工作都没有实现细粒度像素级别的视觉理解，或者缺乏对图像和视频的统一支持。抑或对于各种视觉任务的支持不充分，离通用大模型相差甚远。

为了填补这个空白，近日，团队联合发布开源了Vitron通用像素级视觉多模态大语言模型。Vitron支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务，包括静态图像和动态视频内容进行全面的理解、生成、分割和编辑等任务。

上图综合描绘了Vitron在四大视觉相关任务的功能支持，以及其关键优势。Vitron还支持与用户的连续操作，实现灵活的人机互动。该项目展示了面向更统一的视觉多模态通用模型的巨大潜力，为下一代通用视觉大模型的终极形态奠定了基础。

Vitron相关论文、代码、Demo目前已全部公开。

大一统的终极多模态大语言模型

近年来，大语言模型（LLMs）展现出了前所未有的强大能力，其被逐渐验证为乃是通向AGI的技术路线。而多模态大语言模型（MLLMs）在多个社区火爆发展且迅速出圈，通过引入能进行视觉感知的模块，扩展纯语言基础LLMs至MLLMs，众多在图像理解方面强大卓越的MLLMs被研发问世，例如BLIP-2、LLaVA、MiniGPT-4等等。与此同时，专注于视频理解的MLLMs也陆续面世，如VideoChat、Video-LLaMA和Video-LLaVA等等。

随后，研究人员主要从两个维度试图进一步扩展MLLMs的能力。一方面，研究人员尝试深化MLLMs对视觉的理解，从粗略的实例级理解过渡到对图像的像素级细粒度理解，从而实现视觉区域定位（Regional Grounding）能力，如GLaMM、PixelLM、NExT-Chat和MiniGPT-v2等。

另一方面，研究人员尝试扩展MLLMs可以支持的视觉功能。部分研究已经开始研究让MLLMs不仅理解输入视觉信号，还能支持生成输出视觉内容。比如，GILL、Emu等MLLMs能够灵活生成图像内容，以及GPT4Video和NExT-GPT实现视频生成。

目前人工智能社区已逐渐达成一致，认为视觉MLLMs的未来趋势必然会朝着高度统一、能力更强的方向发展。然而，尽管社区开发了众多的MLLMs，但仍然存在明显的鸿沟。

1. 几乎所有现有的视觉LLMs将图像和视频视为不同的实体，要么仅支持图像，要么仅支持视频。

研究人员主张，视觉应该同时包含了静态图像和动态视频两个方面的内涵——这两者都是视觉世界的核心组成，在大多数场景中甚至可以互换。所以，需要构建一个统一的MLLM框架能够同时支持图像和视频模态。

2. 目前MLLMs对视觉功能的支持还有所不足。

大多数模型仅能进行理解，或者最多生成图像或视频。研究人员认为，未来的MLLMs应该是一个通用大语言模型，能覆盖更广泛的视觉任务和操作范围，实现对所有视觉相关任务的统一支持，达到「one for all」的能力。这点对实际应用尤其是在经常涉及一系列迭代和交互操作的视觉创作中至关重要。

例如，用户通常首先从文本开始，通过文生图，将一个想法转化为视觉内容；然后通过进一步的细粒度图像编辑来完善初始想法，添加更多细节；接着，通过图像生成视频来创建动态内容；最后，进行几轮迭代交互，如视频编辑，完善创作。

上表简单地归纳了现有的视觉MLLM的能力（只代表性地囊括了部分模型，覆盖不完整）。为了弥补这些差距，该团队提出一种通用的像素级视觉MLLM——Vitron。

Vitron系统架构：三大关键模块

Vitron整体框架如下图所示。Vitron采用了与现有相关MLLMs相似的架构，包括三个关键部分：1) 前端视觉&语言编码模块，2) 中心LLM理解和文本生成模块，以及3) 后端用户响应和模块调用以进行视觉操控模块。

前端模块：视觉-语言编码

为了感知图像和视频模态信号，并支持细粒度用户视觉输入，Vitron集成了图像编码器、视频编码器、区域框/草图编码器。

中心模块：核心LLM

Vitron使用的是Vicuna（7B，v1.5），来实现理解、推理、决策制定和多轮用户交互。

后端模块：用户响应与模块调用
Vitron采用以文本为中心的调用策略，整合现成的几个强大先进（SoTA）的图像和视频处理模块，用于解码和执行从低层到高层的一系列视觉终端任务。通过采用以文本为中心的模块集成调用方法，Vitron不仅实现了系统统一，还确保了对齐效率和系统可扩展性。

Vitron模型训练三大阶段

基于上述架构，再对Vitron进行训练微调，以赋予其强大的视觉理解和任务执行能力。模型训练主要囊括三个不同的阶段。

步骤一：视觉-语言整体对齐学习。将输入的视觉语言特征映射到一个统一的特征空间中，从而使其能够有效理解输入的多模态信号。这是一种粗粒度的视觉-语言对齐学习，可以让系统具备整体上有效处理传入的视觉信号。研究人员采用了现存的图像-标题对（CC3M）、视频-标题对（Webvid）和区域-标题对（RefCOCO）的数据集进行训练。

步骤二：细粒度的时空视觉定位指令微调。系统采用了调用外部模块方式来执行各种像素级视觉任务，但LLM本身并未经过任何细粒度的视觉训练，这将会阻碍了系统实现真正的像素级视觉理解。为此，研究人员提出了一种细粒度的时空视觉定位指令微调训练，核心思想是使LLM能够定位图像的细粒度空间性和视频的具体时序特性。

步骤三：输出端面向命令调用的指令微调。上述第二阶段的训练赋予了LLM和前端编码器在像素级别理解视觉的能力。这最后一步，面向命令调用的指令微调，旨在让系统具备精确执行命令的能力，允许LLM生成适当且正确的调用文本。由于不同的终端视觉任务可能需要不同的调用命令，为了统一这一点，研究人员提出将LLM的响应输出标准化为结构化文本格式，其中包括：

1）用户响应输出，直接回复用户的输入

2）模块名称，指示将要执行的功能或任务。

3）调用命令，触发任务模块的元指令。

4）区域（可选输出），指定某些任务所需的细粒度视觉特征，例如在视频跟踪或视觉编辑中，后端模块需要这些信息。对于区域，基于LLM的像素级理解，将输出由坐标描述的边界框。

评估实验

研究人员基于Vitron在22个常见的基准数据集、12个图像/视频视觉任务上进行了广泛的实验评估。Vitron展现出在四大主要视觉任务群组（分割、理解、内容生成和编辑）中的强大能力，与此同时其具备灵活的人机交互能力。以下代表性地展示了一些定性比较结果：

Vision Segmentation

Results of image referring image segmentation

Fine-grained Vision Understanding

Results of image referring expression comprehension.

Results on video QA.

具体更多详细实验内容和细节请移步论文。

未来方向展望

总体上，这项工作展示了研发大一统的视觉多模态通用大模型的巨大潜力，为下一代视觉大模型的研究奠定了一个新的形态，迈出了这个方向的第一步。尽管团队所提出的Vitron系统表现出强大的通用能力，但依然存在自身的局限性。以下研究人员列出一些未来可进一步探索的方向。

系统架构

Vitron系统仍采用半联合、半代理的方式来调用外部工具。虽然这种基于调用的方法便于扩展和替换潜在模块，但这也意味着这种流水线结构的后端模块不参与到前端与LLM核心模块的联合学习。

这一限制不利于系统的整体学习，这意味着不同视觉任务的性能上限将受到后端模块的限制。未来的工作应将各种视觉任务模块整合成一个统一的单元。实现对图像和视频的统一理解和输出，同时通过单一生成范式支持生成和编辑能力，仍然是一个挑战。目前一种有希望的方式是结合modality-persistent的tokenization, 提升系统在不同输入和输出以及各种任务上的统一化。

用户交互性

与之前专注于单一视觉任务的模型（例如，Stable Diffusion和SEEM）不同，Vitron旨在促进LLM和用户之间的深度交互，类似于行业内的OpenAI的DALL-E系列，Midjourney等。实现最佳的用户交互性是本项工作的核心目标之一。

Vitron利用现有的基于语言的LLM，结合适当的指令调整，以实现一定程度的交互。例如，系统可以灵活地响应用户输入的任何预期消息，产生相应的视觉操作结果，而不要求用户输入精确匹配后端模块条件。然而，该工作在增强交互性方面仍有很大的提升空间。例如，从闭源的Midjourney系统汲取灵感，不论LLM在每一步做出何种决定，系统都应积极向用户提供反馈，以确保其行动和决策与用户意图一致。

模态能力

当前，Vitron集成了一个7B的Vicuna模型，其可能对其理解语言、图像和视频的能力会产生某些限制。未来的探索方向可以发展一个全面的端到端系统，比如扩大模型的规模，以实现对视觉的更彻底和全面的理解。此外，应该努力使LLM能够完全统一图像和视频模态的理解。

参考资料：

https://vitron-llm.github.io/

#InstantStyle

InstantID 原班团队推出了风格迁移的新方法 InstantStyle。风格化图像生成

风格化图像生成，也常称为风格迁移，其目标是生成与参考图像风格一致的图像。此前基于 diffusion 的方法（比如 LoRA）通常需要批量的同风格数据进行训练，无法迁移到新的风格中，或者基于 inversion（如 StyleAlign），通过将风格图像还原到 latent noise 后，将其前向传播得到的 K、V 用于替换风格图像生成中的 K、V，但这类方法往往由于 inversion 的操作，造成风格退化。

最近，InstantID 原班团队推出了风格迁移的新方法 InstantStyle，与人脸 ID 不同，它是一个通用的图像风格注入框架，采用两种简单但非常有效的技术，来实现风格和内容与参考图像的有效分离。

论文：InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation
论文地址：https://huggingface.co/papers/2404.02733
项目主页：https://instantstyle.github.io/
代码链接：https://github.com/InstantStyle/InstantStyle
Demo 地址：https://huggingface.co/spaces/InstantX/InstantStyle

作者在文中花了较大篇幅介绍动机，（1）首先风格是欠定的，没有清晰的标准来定义，它囊括众多元素，比如色彩、氛围、材质、布局等，即使是人工评价，也很难有统一的结论；（2）此前基于 inversion 的方法会造成明显的风格退化，这对部分风格是无法接受的，比如纹理；（3）图像风格的注入，最棘手的问题是如何平衡风格注入强度以及参考图像的内容泄露。

对此，作者团队进行了一系列实验分析，他们发现，IP-Adapter 的问题被其它许多方法都明显夸大了，作者仅通过手动调整图像特征注入的权重，就解决了大部分论文中宣称的内容泄露问题。尽管如此，在一些情况下，IP-Adapter 仍然较难找到一个合适的阈值来平衡。由于目前 Adapter-based 的方法普遍使用 CLIP 提取图像特征，作者通过图像检索的例子确认，在 CLIP 特征空间中，图像和文本的特征是可以相加减的，答案显而易见，为什么不在注入网络之前，显式地减去可能会泄露的内容信息，从而对图像特征进行内容和风格解耦呢？

最后，受到 B-LoRA 方法的启发，作者细致分析了 IP-Adapter 在每一层注入的效果，惊奇地发现存在两个独立的层分别响应风格和空间布局的信息。为此，作者引出了提出的方法。

方法介绍

基于以上的观察和实验，作者提出了 InstantStyle 方法，如图所示，该方法核心包含两个模块：

（1）特征相减：利用 CLIP 空闲的特性，显式地进行特征相减，去除图像特征中内容的信息，减少参考图片内容对生成图片的影响。其中相比于风格的欠定，内容信息往往容易通过文本简单描述，所以可以利用 CLIP 的文本编码器提取内容特征，用于解耦。

（2）仅风格层注入：仅在特定风格层完成特征注入，隐式地实现风格和内容的解耦。作者在 UNet 的 mid block 附近，发现了分别控制风格和空间布局的两个特定层，并发现在某些风格中，空间布局可能也属于风格的一种。

整体而言，InstantStyle 的思路相当简单易懂，仅仅通过几行代码，就缓解了风格迁移中最困扰的内容泄露问题。

实验结果

作者在文中展示了两种策略的生成结果，这两种策略不局限于特定模型，可以分开独立使用，都实现了优异的效果。

特征相减的结果：

仅风格层注入：

和目前领先方法的对比：

基于原图的风格化：

社区玩法

InstantStyle 已经提供了丰富的代码实现，开发者可以直接通过 GitHub 找到，包括文生图、图生图以及 Inpainting。近日还被视频生成项目 AnyV2V 作为推荐的风格化工具。对于社区用户，InstantStyle 还原生就支持了 ComfyUI（该结点作者也是 InstantStyle 的共同作者），用户可以通过更新 IP-Adapter 结点即可快速尝试。

作为 InstantID 作者，又怎么少得了和 InstantID 的联名呢，相比于 InstantID 中仅通过文本来控制生成风格，InstantStyle 无疑可以让风格更加多样。作者团队会在 GitHub 星标到达 1000 后，官方支持人脸的风格化功能。

作者也官方支持了 Huggingface Demo，可以在线试玩。

#NeRF-XL

NeRF-XL: 使用多GPU扩展神经辐射场

真正有效利用多卡联合训练！

原标题：NeRF-XL: Scaling NeRFs with Multiple GPUs

论文链接：https://research.nvidia.com/labs/toronto-ai/nerfxl/assets/nerfxl.pdf

项目链接：https://research.nvidia.com/labs/toronto-ai/nerfxl/

作者单位：NVIDIA 加州大学伯克利分校

论文思路：

本文提出了NeRF-XL，这是一种原理性的方法，用于在多个图形处理器（GPUs）之间分配神经辐射场（NeRFs），从而使得具有任意大容量的NeRF的训练和渲染成为可能。本文首先回顾了现有的多GPU方法，这些方法将大型场景分解成多个独立训练的NeRFs [9, 15, 17]，并确定了这些方法的几个基本问题，这些问题在使用额外的计算资源（GPUs）进行训练时阻碍了重建质量的提高。NeRF-XL解决了这些问题，并允许通过简单地使用更多的硬件来训练和渲染具有任意数量参数的NeRFs。本文方法的核心是一个新颖的分布式训练和渲染公式，这在数学上等同于经典的单GPU案例，并最小化了GPU之间的通信。通过解锁具有任意大参数数量的NeRFs，本文的方法是第一个揭示NeRFs多GPU扩展规律(scaling laws)的方法，显示出随着参数数量的增加而提高的重建质量，以及随着更多GPU的增加而提高的速度。本文在多种数据集上展示了NeRF-XL的有效性，包括迄今为止最大的开源数据集MatrixCity [5]，它包含了258K张图像，覆盖了25平方公里的城市区域。

论文设计：

近期在新视角合成的进步极大地提高了我们捕获神经辐射场（NeRFs）的能力，使得这一过程变得更加易于接近。这些进步使得我们能够重建更大的场景和场景内更精细的细节。无论是通过增加空间规模（例如，捕获数公里长的城市景观）还是提高细节水平（例如，扫描田野中的草叶），扩大捕获场景的范围都涉及到将更多的信息量纳入NeRF中，以实现准确的重建。因此，对于信息含量高的场景，重建所需的可训练参数数量可能会超过单个GPU的内存容量。

本文提出了NeRF-XL，这是一个原理性的算法，用于在多个GPU之间高效分配神经辐射场（NeRFs）。本文的方法通过简单增加硬件资源，使得捕获高信息含量场景（包括大规模和高细节特征的场景）成为可能。NeRF-XL的核心是在一组不相交的空间区域之间分配NeRF参数，并跨GPU联合训练它们。不同于传统的分布式训练流程在后向传播中同步梯度，本文的方法只需要在前向传播中同步信息。此外，通过仔细重写体渲染方程和分布式设置中相关的损失项，本文大幅减少了GPU之间所需的数据传输。这种新颖的重写提高了训练和渲染的效率。本文方法的灵活性和可扩展性使本文能够使用多个GPU高效地优化具有任意数量参数的NeRFs。

本文的工作与最近采用多GPU算法来建模大规模场景的方法形成了对比，这些方法通过训练一组独立的NeRFs来实现[9, 15, 17]。虽然这些方法不需要GPU之间的通信，但每个NeRF都需要建模整个空间，包括背景区域。这导致随着GPU数量的增加，模型容量中的冗余度增加。此外，这些方法在渲染时需要混合NeRFs，这会降低视觉质量并在重叠区域引入伪影。因此，与NeRF-XL不同的是，这些方法在训练中使用更多的模型参数（相当于更多的GPU）时，未能实现视觉质量的提升。

本文通过一系列多样化的捕获案例来展示本文方法的有效性，包括街道扫描、无人机飞越和以物体为中心的视频。这些案例的范围从小场景（10平方米）到整个城市（25平方公里）。本文的实验表明，随着本文将更多的计算资源分配给优化过程，NeRF-XL始终能够实现改善的视觉质量（通过PSNR测量）和渲染速度。因此，NeRF-XL使得在任何空间规模和细节的场景上训练具有任意大容量的NeRF成为可能。

图 1：本文基于原理的多GPU分布式训练算法能够将NeRFs扩展到任意大的规模。

图 2：独立训练与多GPU联合训练。独立地训练多个NeRFs[9,15,18]要求每个NeRF既要建模焦点区域也要建模其周围环境，这导致了模型容量的冗余。相比之下，本文的联合训练方法使用不重叠的NeRFs，因此没有任何冗余。

图 3：独立训练需要在新视角合成时进行混合。无论是在2D[9, 15]还是3D[18]中进行混合，都会在渲染中引入模糊。

图 4：独立训练导致不同的相机优化。在NeRF中，相机优化可以通过变换不准确的相机本身或所有其他相机以及底层3D场景来实现。因此，伴随相机优化独立训练多个NeRF可能导致相机校正和场景几何的不一致性，这给混合渲染带来了更多困难。

图 5：3D混合可能造成的视觉伪影。左图展示了使用2个GPU训练的MegaNeRF结果。在0%重叠时，由于独立训练，边界出现了伪影；而在15%重叠时，由于3D混合，出现了严重的伪影。右图阐释了这种伪影的成因：虽然每个独立训练的NeRF渲染出正确的颜色，但混合后的NeRF并不保证正确的颜色渲染。

图 6：本文的训练流程。本文的方法联合训练所有GPU上的多个NeRFs，每个NeRF覆盖一个不相交的空间区域。GPU之间的通信仅发生在前向传播中，而不发生在后向传播中（如灰色箭头所示）。(a) 本文可以通过评估每个NeRF以获得样本颜色和密度，然后将这些值广播到所有其他GPU以进行全局体渲染（见第4.2节）。(b) 通过重写体渲染方程，本文可以将数据传输量大幅减少到每条光线一个值，从而提高效率（见第4.3节）。

实验结果：

图 7：定性比较。与先前的工作相比，本文的方法有效地利用多GPU配置，在所有类型的数据上提高了性能。

图 8：定量比较。基于独立训练的先前工作未能随着额外GPU的增加而实现性能提升，而本文的方法随着训练资源的增加，享受到了渲染质量和速度的提升。

图 9：本文方法的可扩展性。更多的GPU允许有更多的可学习参数，这导致了更大的模型容量和更好的质量。

图 10：大规模捕获上的更多渲染结果。本文在更大的捕获数据集上使用更多的GPU测试了本文方法的鲁棒性。请参阅本文的网页，以获取这些数据的视频导览。

图 11：在University4数据集上与PyTorch DDP的比较。PyTorch 分布式数据并行（Distributed Data Parallel，DDP）旨在通过跨GPU分布光线来加快渲染速度。相比之下，本文的方法是跨GPU分布参数，突破了集群中单个GPU的内存限制，并且能够扩大模型容量以获得更好的质量。

图 12：University4上的同步成本。本文基于分区的体渲染（见第4.3节）允许 tile-based 通信，这比原始的基于样本的通信（见第4.2节）成本要低得多，因此能够实现更快的渲染。

总结：

总结来说，本文重新审视了将大规模场景分解为独立训练的NeRFs（神经辐射场）的现有方法，并发现了阻碍额外计算资源（GPUs）有效利用的重大问题，这与利用多GPU设置来提升大规模NeRF性能的核心目标相矛盾。因此，本文引入了NeRF-XL，这是一种原理性的算法，能够有效地利用多GPU设置，并通过联合训练多个非重叠的NeRFs来在任何规模上增强NeRF性能。重要的是，本文的方法不依赖于任何启发式规则，并且在多GPU设置中遵循NeRF的扩展规律(scaling laws)，适用于各种类型的数据。

#UniRES

在本文中，作者进一步迈向更精细的部分级RES任务。作者提出了一个新的多粒度指代表达分割（MRES）任务，通过手动注释构建了一个名为RefCOCOm的评估基准。作者利用自动模型辅助数据引擎，构建了最大的视觉定位数据集，即MRES-32M，其中包括超过32.2M个高质量的蒙版和标题，涵盖了提供的1M张图像。

论文名：Unveiling Parts Beyond Objects: Towards Finer-Granularity Referring Expression Segmentation

论文链接：https://arxiv.org/pdf/2312.08007.pdf

开源代码：https://github.com/Rubics-Xuan/MRES.

引言

作为视觉-语言理解中最具挑战性的任务之一，指代表达分割（ReferringExpression Segmentation，RES）旨在基于描述性语言表达在像素级别上定位特定区域。与传统的仅关注图像或视频的视觉分割任务相比，RES由于需要跨模态进行强大的理解而面临更大的困难和挑战，但它可以同时缓解传统对象检测或分割中预定义类别的问题。由于现实世界场景通常需要多样性的目标识别，RES任务在应用方面具有巨大潜力，例如基于语言的人-物互动和交互式图像编辑。

简介

在本文中，我们进一步迈向更精细的部分级RES任务。为了促进面向更精细视觉-语言理解的对象级RES任务，我们提出了一个新的多粒度指代表达分割（MRES）任务，并通过手动注释构建了一个名为RefCOCOm的评估基准。通过利用我们的自动模型辅助数据引擎，我们构建了最大的视觉定位数据集，即MRES-32M，其中包括超过32.2M个高质量的蒙版和标题，涵盖了提供的1M张图像。此外，设计了一个简单但强大的模型UniRES来完成统一的对象级和部分级定位任务。对我们的RefCOCOm进行的大量实验，以及对经典RES任务的三个数据集（即，RefCOCO （+/g））的实验表明，我们的方法优于先前的最先进方法。

Multi-Granularity Grounding Dataset

01 Data Collection Engine

考虑到经典的指代表达分割任务的内在复杂性，相关的训练数据需要在文本和视觉领域进行广泛的注释成本。当粒度提升到部分级别时，注释的复杂性进一步加剧。我们认为，阻碍开放世界基础的主要瓶颈是当前数据可扩展性所施加的限制。通过利用强大的基础模型进行协同增强，我们引入了一个先进的数据引擎，能够自动生成可靠的视觉基础数据。

（1）多粒度密集字幕生成器。

对于图像粒度，我们使用COCO数据集，其中所有边界框都统一表示为(0,0),(999,999)。对于对象粒度，我们利用Visual Genome数据集。对于部分粒度，我们利用单模态语义分割数据，并采用PartNameX of ObjectNameY形式的模板构建密集字幕。这种统一的多任务训练方法可以在不同粒度之间协同增强：它允许LVLMs融合更全面和详细的信息以增强部分粒度描述。同时，部分粒度的知识有助于LVLMs在对象内部推广知识。

（2）模型辅助数据生成。

为了生成基于对象级别的视觉定位数据，我们利用大规模对象检测数据集Object365提供高度可靠的边界框。此外，其中丰富的类别标签确保了全面的知识覆盖。如图(b)所示，这些边界框将作为视觉提示，分别被发送到可提示分割器（即segment anything model）和我们的密集字幕生成器中，以获取分割掩模和详细的语义描述。

（3）数据过滤。

在完成所有图像的多粒度注释后，我们进一步引入CLIP进行过滤。从原始图像中裁剪出边界框，然后将其与密集字幕一起发送到编码器中以测量相似度。为了在很大程度上确保视觉和语言注释的一致性，我们保留相似度大于0.5的框-字幕对作为最终的注释结果。

02 MRES-32M Dataset Details

总的来说，我们将提出的MRES-32M与现有数据集进行比较，并在表2中列出我们数据集的一些独特和显著属性。

（1）统一的多粒度。与接地对应物相比，我们的MRES 32M是第一个涵盖部分和对象粒度的视觉接地数据集。与部分级别分割对应物相比，我们的MRES-32M为每个部分掩模提供了信息丰富且独特的细粒度描述。

（2）更多样化的类别。我们的MRES-32M由365个对象类别和相关的2,299个部分类别组成。与现有数据集相比，它涵盖了更广泛的多模态知识范围，是朝着开放世界理解的重要一步。

（3）可拆分的数据规模。据我们所知，MRES-32M是当前接地研究社区中最大的数据集。就图像数量和对象实例数量而言，它分别超过了最大的现有视觉接地数据集RefCOCOg [27] 38倍和283倍。同时，它包含的部分实例计数超过了最大的现有部分语义分割数据集[33] 的58倍。

（4）更复杂的指代。受益于我们基于LVLM的密集描述生成器，MRES-32M的指代可以更充分地与视觉上下文相结合，用于实体（即部分和对象）描述。不拘泥于特定模板，实体的关系和属性可以在自由自然语言表达中突出显示。

方法与模型

多粒度RES模型UniRES，用于统一的MRES任务，其中涉及到对象和部分粒度的参考目标。由于我们最初的意图是为提出的多粒度RES任务建立一个简单易懂的基准模型,我们的UniRES模型的结构被设计为简单清晰。

UniRES有三个主要组件：

（1）视觉-语言骨干网络。

考虑到捕捉视觉-语言特征表示的强大能力和可扩展性的要求，我们利用CLIP模型[32]的CLIP预训练权重，该模型从大量的图像-文本对中学习可转移的视觉和语言概念，并将其作为我们的参考分割框架的骨干。我们利用CLIP中的图像和文本编码器（即VisionTransformer (ViT) [8]和Transformer [39]）来有效提取视觉和语言特征。

（2）基于查询的分组设计。

为了有效完成提出的MRES任务，必须利用低级局部和高级全局视觉特征。为了增强CLIP骨干的局部-全局视觉表示，而不引入太多额外的参数或改变模型的结构，我们在CLIP视觉骨干的第一层和中间层中分别加入了64个和8个可学习的标记（经验设置）。这些可学习的标记遍布视觉骨干的前半部分和后半部分。我们期望ViT的内部自注意机制隐式地执行视觉分组的方式，同时获取捕捉低级局部和高级全局特征的代表性分组标记。基于局部特征更加分散的事实，附加的低级分组标记的数量大于高级分组标记的数量。然后，来自两个级别的分组标记被输入到一个语言引导的区域过滤器（LRF）中，通过交叉注意机制选择与语言相关的视觉特征，然后进行串联以融合这些与表达相关的视觉分组标记，用于后续的视觉-语言解码。

（3）两阶段V-L解码器。

现在，从骨干网络中获取了视觉和文本特征表示，以及具有两个不同级别的与表达相关的分组标记，我们使用由堆叠的Transformer层组成的两阶段掩码解码器来生成分割掩码。具体而言，第一阶段的V-L解码器将提取的视觉和文本特征作为输入，并生成第一阶段融合的多模态表示。随后，这些多模态特征进一步与两个语义级别（即低级和高级）的分组表达相关区域特征进行集成，以实现进一步的特征增强，然后通过线性投影层获得最终的分割掩码。

实验与结果

为了评估我们方法的有效性，我们在三个经典的RES数据集（即RefCOCO，RefCOCO+，RefCOCOg）以及我们的多粒度RES基准RefCOCOm上进行了全面的实验。

在我们的RefCOCOm基准测试中，以mIoU为指标与之前的最佳方法进行比较。

与先进方法在之前三个经典的RES基准数据集上进行比较

我们在RefCOCOm验证集上进行的分割结果的视觉比较

多粒度RES任务的RefCOCOm基准的更多选定样本

#EDM2~

本文中，作者在不改变 high-level 架构的前提下，识别和纠正了流行的 ADM 扩散模型中的几个训练方面不均匀的原因。本文的方法把 ImageNet 512×512 图像生成任务的 FID 由原来的 2.41 提高到了 1.8。

扩散模型在当前可以说主导了图像生成这个领域，也对于大数据集展现出了强大的缩放性。在本文中，作者在不改变 high-level 架构的前提下，识别和纠正了流行的 ADM 扩散模型中的几个训练方面不均匀的原因。在模型的训练过程中，作者观察到网络的激活值和权重值变化的幅度不受控制。因此，作者重新设计了网络架构来保持这个激活值和权重值变化的幅度稳定。这样可以消除在训练过程中观察到的漂移和不均衡现象，且没有太多改变网络原本的计算复杂度。本文的方法把 ImageNet 512×512 图像生成任务的 FID 由原来的 2.41 提高到了 1.81。生成质量和模型复杂度可视化如下图1所示。

此外，本文还提出一种在事后设置 exponential moving average (EMA) 的方法，即即在完成训练运行后设置 EMA。这允许在不执行多次训练的情况下精确调整 EMA 长度，并揭示了它与网络架构、训练时间和指导的交互。

图1：本文的工作显著提高了生成结果的质量，在 5 倍小的模型下超过了之前的最新技术

本文工作

在不改变整体架构的情况下，对 ADM 的 UNet 架构提出了一系列的改进，并展示出相当大的质量改进。
提出了一种事后 EMA 的策略，在训练结束之后使用 EMA，利用训练期间存储的权重快速地得到模型的权重。

1 EDM2：分析和改进扩散模型的训练过程

论文名称：Analyzing and Improving the Training Dynamics of Diffusion Models (CVPR 2024)

论文地址：

http://arxiv.org/pdf/2312.02696.pdf

代码地址：

http://github.com/NVlabs/edm2

1.1 改良主流扩散模型的架构，以改善其训练过程

基于文本，示例图片等等提示的高质量图像合成因为去噪扩散模型[1]的出现变得很流行。基于扩散模型的方法不仅能够产生高质量的图像，而且还可以提供多功能的控制[2]，或者扩展到其他模态注入音频[3]，视频[4]和 3D 形状[5]。

由于损失函数的高度随机性，扩散模型的训练过程十分具有挑战性。最终的图像质量由在整个采样链中预测的微弱图像细节决定，中间步骤的小错误在随后的迭代中可能会产生滚雪球效应。扩散模型的网络必须在不同的噪声等级和条件输入中准确地估计出下一步的干净的图片。这个过程十分困难，因为这些信号本身就是混沌且随机的。

为了在如此嘈杂的训练环境中有效地学习，理想情况下，网络应该对参数更新具有可预测的响应。作者认为，这种理想在当前最先进的设计中不满足，损害了模型的质量，并且由于超参数、网络设计和训练设置之间的复杂交互，因此很难改进它们。

本文的首要目标是了解扩散模型的训练动态为什么，或者说会因为什么意外的现象而变得不均衡，并且逐步去删除这些影响。本文方法的核心是权重值、激活值、梯度和权重更新的预期幅度，这些也在之前的工作[6][7][8]中被研究过。粗略地说，本文的方法是通过一组干净的设计来标准化所有幅度，这些设计解决它们的相互依赖性。

具体来说，作者对 ADM[9]的 U-Net 架构进行了一系列修改，同时不改变其整体的结构，并在此过程中展示出了很大的质量改进。最终网络可以认为是 ADM 架构的替代品。对于 ImageNet 512×512 图像生成任务，本文方法在使用或者不使用 guidance 的情况下达到了 1.81 和 1.91 的 FID，之前是 2.41 和 2.99。

本文还提出了一种在训练运行完成后设置 Exponential Moving Average (EMA) 参数的方法。模型平均[10]是所有高质量图像合成方法中不可或缺的技术[9][11][12][13]。但是，调节 EMA 超参数是一个很繁琐的过程，因为只有当训练接近收敛时，小范围的变化才会非常明显。本文提出的事后 EMA 允许根据训练期间存储的权重快速高效地重建网络，同时在计算上也比较高效。

1.2 Baseline 架构介绍

基线模型作者使用的是 ADM[9]架构，是通过 EDM[14]框架实现的。如下图2(a)所示。ADM 架构由 U-Net[15]和 Self-Attention[16]混合组成。作者使用 ImageNet[17]512×512 图像生成任务进行评估。与大多数高分辨率扩散模型一样，在预训练的Decoder[18]的 latent space 中运行，该 Decoder 执行 8× 的上采样。因此解码之前的输出维度是 64×64×4。在探索过程中，作者使用大小适中的网络配置，约 300M 的可训练参数，对 2147M 的图像进行训练，Batch Size 为 2048。

图2：EDM Basline 架构

1.3 一些初步的变化

改进的 Baseline (配置 B)： 作者首先调整超参数 (学习率、EMA 长度、训练噪声水平分布等) 来优化 Baseline 模型的性能。作者还遵循之前的工作[1][19][20]，禁用了 32×32 分辨率的 Self-Attention。

然后，作者解决了原始 EDM 训练设置中的一个缺点：虽然 EDM 中的损失权重在初始化时将所有噪声水平的损失幅度标准化为 1.0，但随着训练的进行，这种情况不再成立。然后，梯度反馈的大小在噪声水平之间变化，以不受控制的方式重新加权它们的相对贡献。

为了抵消这种影响，作者采用了 Kendall 等人[21]提出的多任务损失的连续泛化。作者将原始损失值跟踪为噪声水平的函数，并通过其倒数缩放训练损失。总之，这些变化将 FID 从 8.00 降低到 7.24。配置 B 的架构如下图 3(b) 和图4所示。

图3：本文基于的 ADM 架构。(a) Encoder 通过 Skip connections 连接到 Decoder，同时辅助的 Embedding 提供了噪声等级和类别的 Condition。(b) 原始构建块遵循 ResNet 的 Pre-Activation 设计

图4：配置 B 的架构

架构流线化 (配置 C)： 为了便于对训练动力学的分析，作者继续简化架构。为了避免处理多种不同类型的可训练参数，作者从所有卷积层和线性层以及调节路径中去除加性 bias。为了恢复网络偏移数据的能力，作者将常数 1 的附加通道连接到网络的输入。作者使用[22]的初始化方法统一所有权重的初始化，从 ADM 的原始位置编码方案切换到更标准的傅里叶特征[23]，并简化 Group Normalization 层。

最后，作者观察到，在训练过程中，由于 Key 和 Query 向量的大小增长，注意力图通常表现出尖刺。作者使用余弦注意力机制[24][25][26]在计算点积之前对向量进行归一化。这允许在整个网络中使用 16 位浮点数，提高了整体的效率。总之，这些变化将 FID 从 7.24 降低到 6.96。配置 C 的架构如下图5所示。

图5：配置 C 的架构

1.4 标准化激活值的幅值

通过简化架构，作者现在修复训练动态中的第1个问题：激活幅值。如下图6的第1行所示，尽管每个块中使用了 Group Normalization，但随着训练的进行，激活幅值会出现不可控的增长。作者认为这是由于 Encoder，Decoder 和 Self-Attention 的残差结构，ADM 网络包含较长的信号路径，且没有任何归一化。这些路径从残差分支累积，并且可以通过重复的卷积放大激活值。作者觉得这种激活值幅度的增长会将整个模型置于非最佳状态下训练。

图6：不同深度的激活值和权重大小随训练时间的变化

作者尝试将 Group Normalization 引入主路径中一起训练，但这会导致结果质量出现显著的下降。这可能与之前关于 StyleGAN[27]的发现有关，即网络的能力受到过度归一化的影响。受到 StyleGAN2[28]和其他一些工作[29][30]的启发，作者选择修改网络，以使得各个层和路径保持期望的激活幅值，目标是减少对归一化层的需求。

图7：配置 D 的架构

1.5 标准化权重和更新量

从上图3的中间可以看出，随着训练过程的进行，网络权重出现了明显的增长趋势。即使通过 Adam 优化器对梯度进行标准化，有效学习率 (即权重更新量的相对大小) 仍然随着训练的进行而衰减。虽然有人建议这种有效学习率衰减是一个理想的效果[31]，但本文作者认为应该显式地控制它，而不是让它在层之间不可控和不均匀地漂移。因此，作者将其视为训练动态的另一个不平衡的问题。

控制有效的学习率 (配置 E)： 作者在这里提出了一种 Forced Weight Normalization 技术，在每个训练步骤之前显式地将每个权重向量 \textbf{w}_i\textbf{w}_i 归一化为单位方差。同时，在训练期间仍然在此之上应用 "标准" 的权重归一化。

图8：配置 E 的架构

1.6 去除分组卷积 (配置 F)

在这一步中，作者去除具有潜在的有害结果的 Group Normalization[32] 。尽管网络在没有任何归一化层的情况下可以成功训练，但作者发现在 Encoder 的主路径引入更弱的 Pixel Normalization 层[33]仍然有好处。作者还从 Embedding 网络中删除了第2个线性层和网络输出的非线性，并将残差块中的重采样操作合入主路径中。FID 从 3.02 提高到 2.71。配置 F 的架构如图9所示。

图9：配置 F 的架构

1.7 保持激活值幅度的固定功能的层 (配置 G)

此外，每个分支之间可以通过可控制的参数来取得平衡[35]，作者把加法操作换成加权求和。

还有两点改进：第1，作者在整个模型的结尾增加了一个可学习的，零初始化的标量的增益。第2，在每个残差块内的 Condition 信号应用类似的增益。因此在初始化时，相当于没有使用 Condition 信号。

如图10所示是最终的架构设计，它比基线更简单、更容易推理。FID 结果为 2.56，与当前技术水平相比极具竞争力。图11是配置 G 的架构。

图10：最终架构

图11：配置 G 的架构

如图12所示是在 ImageNet 512×512 生成任务中评估变化的影响。作者报告了没有 guidance 的 FID[36]结果，在 50000 个随机生成的图像和整个训练集之间计算。

图12：ImageNet 512×512 图像生成任务中评估变化的影响

1.8 事后 EMA

指数移动平均 (Exponential Moving Average, EMA) 是[19]在图像生成中扮演重要角色。但关于衰减参数与训练和采样的其他方面之间的关系知之甚少。作者开发了一种事后选择 EMA 文件的方法，即不需要在训练期间指定它。

出于两个原因，作者提出使用基于幂函数而不是指数函数的衰减。其一，非常长的指数 EMA 对网络参数的初始阶段施加了不可忽略的权重，而初始阶段的参数常常是随机的。其次，作者观察到一个明显的趋势，即更长的训练运行受益于更长的 EMA 衰减，因此平均配置文件理想情况下应该随着训练时间自动扩展。

图13：通过 Snapshots 重建权重

图14：不同配置下的 FID 随着 EMA 长度的变化

但是作者随后又进行了另一个实验，结果如图15所示。在这个实验中，作者首先从网络的不同部分选择权重张量的子集。然后，对于每个选定的张量都执行一个扫描，其中只有所选张量的 EMA 发生了变化，而其他所有张量都保持在全局最优值。每个张量一行，把结果显示在图中，显示出对 FID 巨大的影响：在配置 B 中，FID 的提升可以达到 10%。一个实例使用非常短的 EMA，另一个使用非常长的 EMA。配置 B 对于最优 EMA 长度不敏感，因为其权重张量对于最优 EMA 长度没有达成一致。对于最终配置 G，这种效应消失，最优值更清晰：FID 没有显著的改进，张量现在就最优 EMA 达成一致。在配置 G 中，逐张量扫描改变 EMA 长度的效果很小。

图15：每层对于 EMA 长度的敏感度

图16说明了训练过程中最佳 EMA 长度的演变。尽管 EMA 长度的定义是相对于训练的长度，但作者观察到随着训练的进行，最优值在缓慢向着相对较长的 EMA 长度移动。

图16：训练过程中最佳 EMA 长度的演变

1.9 实验结果

作者使用 ImageNet 512×512 图像生成任务作为主要实验。图17对比了主要模型的结果。首先考虑不使用 guidance[37]的情况，之前最好的结果是 VDM++[38]，FID 的值为 2.99。即使是使用小模型 EDM2-S 也取得了 2.56 的 FID，缩放模型尺寸之后可以进一步将 FID 提高到 1.91，大大超过了之前的记录。

图17：ImageNet-512 实验结果

作者还发现 Dropout[39][40]在表现出过拟合的情况下改善我们的结果。因此，作者在较大的配置 (M-XXL) 中使用 Dropout，这些配置显示过度拟合的迹象，同时在有害的较小配置 (XS, S) 中禁用 Dropout。

使用最大的模型，适度的 Guidance 可以进一步将 ImageNet-512 的 FID 从 1.91 提高到 1.81，为该数据集设置了新记录。

为了证明本文的方法不限于 latent 空间，作者提供了在 ImageNet-64 中的 RGB 空间的结果。如下图18所示，本文的结果优于一些使用确定性采样的早期方法。之前的记录是通过 EDM[14]实现的，FID 为 2.22。本文在相似的计算复杂度下将其提升到了 1.58，进一步缩放之后达到 1.33。

图18：ImageNet-64 实验结果

#CFMW~

硬刚恶劣天气！Mamba 引领目标检测新风向

跨模态图像融合了可见光-红外光谱线索，可以为目标检测提供更丰富的互补信息。尽管如此，现有的可见光-红外目标检测方法在恶劣天气条件下严重退化。这种失败源于可见图像对环境扰动的显著敏感性，如雨、雾和雪，这些常常导致检测中的假阴性和假阳性。

为了解决这个问题，作者引入了一项新颖且具有挑战性的任务，称为恶劣天气条件下的可见光-红外目标检测。为了促进这一任务，作者构建了一个新的恶劣天气可见光-红外数据集（SWVID），其中包含了多样化的恶劣天气场景。

此外，作者提出了带有天气去除（CFMW）的跨模态融合曼巴，以增强恶劣天气条件下的检测准确性。

得益于所提出的天气去除扩散模型（WRDM）和跨模态融合曼巴（CFM）模块，CFMW能够挖掘跨模态融合中行人特征的更基本信息，从而能够高效地转移到其他更罕见的场景，并在计算能力较低的平台上有足够的可用性。

据作者所知，这是首次针对改进并在跨模态目标检测中同时集成扩散和曼巴模块的研究，成功提高了这类模型的实用性和更先进的架构。

在公认的和作者自行创建的数据集上的大量实验都明确证明了作者的CFMW达到了最先进的检测性能，超越了现有的基准。

数据集和源代码将在https://github.com/lhy-zjut/CFMW上公开提供。

1. Introduction

在开放和动态的环境中，目标检测面临如雨、雾和雪等具有挑战性的天气条件。基于深度学习的目标检测方法的快速发展显著提高了识别和分类物体的能力。得益于先进的特征提取和融合策略，跨模态目标检测方法已达到高精度，例如CFT（杨等人，2017年）、GAFF（杨等人，2017年）和CFR(杨等人，2017年)。

然而，如图1所示，这些方法的表现往往受到不利天气条件的挑战，这会严重影响视觉数据的可见性和质量。尽管红外图像在一定程度上可以提供补充线索，但它无法修复视觉图像的外观扭曲或信息丢失。因此，在不利天气条件下，传统的跨模态目标检测方法仍然面临严重的性能下降。

现有方法不能直接应用于不利天气条件，因为环境干扰削弱了可见图像的色彩范围，而现有的融合方法难以充分融合可见光和红外光谱，也没有在相应的数据集上进行充分的训练。为了填补这一研究领域的空白，作者构建并发布了一个名为严重天气可见-红外数据集（SWVID）的新数据集，并提出了一种名为带天气消除的跨模态融合曼巴（CFMW）的新框架。

为了促进该领域的研究，作者提出了一种新的可见-红外数据集，名为SWVID，它通过在图像上数学形式化各种天气现象的影响，旨在涵盖多样化的严重天气场景。具体来说，SWVID包含了对齐的可见-红外图像对，涵盖了三种天气条件和两种场景，每种条件和场景均匀分布。

受到图1中强调的关键研究缺口的启发，即在不利天气条件下，当前方法表现不佳，作者引入了CFMW，用于在不利天气条件下的多光谱目标检测。作者的CFMW利用天气消除扩散模型（WRDM）和跨模态融合曼巴（CFM）来提高不利天气条件下的检测精度。

图1。作者提出的方法可以在不利天气条件下实现高精度的跨模态目标检测。顶部两个示例来自CFT（杨等人，2017年），而底部两个示例来自CFMW（作者的）。

在最小化计算负担的同时。具体来说，在融合红外对应图像之前，使用WRDM来恢复受影响的可见图像，为图像融合网络提供即插即用的兼容性。基于学习逆转来增加噪声的顺序并破坏数据样本的过程，WRDM模型有利于最小化不利天气条件的影响。此外，CFM可以集成到特征提取的主干中，有效地整合来自不同模态的全局上下文信息。最近的研究表明，曼巴（Mamba，2019年）比等效规模的 Transformer 实现了更高的推理速度和整体指标。据作者所知，本研究代表首次尝试将扩散模型和曼巴用于多光谱目标检测。

在既有的和自创的数据集上的大量实验表明，作者的CFMW方法与现有基准相比，取得了卓越的检测性能。具体来说，与当前的图像恢复方法相比，作者实现了大约17%的性能提升。与CFT（杨等人，2019年）这种最先进的跨模态目标检测方法相比，作者提出的方法在节省51.2% GPU内存的同时，实现了大约8%的准确度提升。

概而言之，作者总结以下主要贡献：

作者引入了一个关注不利天气条件下可见-红外目标检测的新任务，并开发了一个名为严重天气可见-红外数据集（SWVID）的新数据集，该数据集模拟现实世界条件。SWVID包含了对可见-红外图像和标签，涵盖了如雨、雾和雪等天气条件；
作者提出了一种新方法，带天气消除的跨模态融合曼巴（CFMW），用于不利天气条件下的多光谱目标检测；
作者引入了天气消除扩散模型（WRDM）和跨模态融合曼巴（CFM）模块，以同时解决图像去天气化和可见-红外目标检测任务；
大量实验表明，这种整合实现了最佳的任务迁移能力，为这两个任务带来了最先进的性能。

2. Related Work

在本节中，作者简要回顾了关于跨模态目标检测、状态空间模型和多天气图像恢复的先前相关研究。

跨模态目标检测 现有的跨模态目标检测方法可分为两类：特征级和像素级融合，通过特征融合方法和时机来进行区分。最近，基于卷积神经网络的双流目标检测模型在提高识别性能方面取得了很大进展（Chen等人，2019；Wang等人，2019；Wang等人，2019；Wang等人，2019；Wang等人，2019），而像素级融合方法也取得了良好的性能（Chen等人，2019；Wang等人，2019；Wang等人，2019）。其他采用诸如GAN等方法进行有效融合的工作也取得了良好结果（Wang等人，2019；Wang等人，2019；Wang等人，2019）。这些工作可以整合到如下游目标检测等任务中。传统的卷积神经网络具有有限的感受野，在使用卷积运算符时，信息只集成到局部区域，而 Transformer 的自注意力运算符可以学习长距离依赖（Wang等人，2019）。因此，提出了一种基于 Transformer 的名为Cross-Modality Fusion Transformer（CFT）（Yang等人，2019）的方法，并取得了最先进的检测性能。与这些工作不同，作者首先将Mamba引入跨模态目标检测中，通过门控机制学习长距离依赖，同时实现高准确度和低计算开销。

状态空间模型 状态空间模型的概念最初在S4模型（Shen等人，2017）中引入，提出了一种与传统卷积神经网络和 Transformer 相比能更有效建模全局信息的独特架构。基于S4，S5模型（Wang等人，2019）将复杂性降低到线性水平，而H3（Wang等人，2019）将其引入语言模型任务中。Mamba（Mamba，2019）引入了输入激活机制以增强状态空间模型，与同等规模的 Transformer 相比，实现了更高的推理速度和整体指标。随着Vision Mamba（Wang等人，2019）和Vnamba（Vnamba，2019）的引入，状态空间模型的应用已扩展到视觉任务中。目前，现有研究尚未考虑将状态空间模型有效地泛化到跨模态目标检测中。

多天气图像恢复 最近，一些尝试已经在一个单一的深度学习框架中统一了多个恢复任务，包括生成建模解决方案以恢复叠加噪声类型（Chen等人，2019），在未知测试时间恢复叠加噪声或天气损害，尤其是多天气图像退化（Chen等人，2019；Wang等人，2019；Wang等人，2019）。All in One（Wang等人，2019）采用多编码器和解码器架构统一了天气恢复方法。值得注意的是，基于扩散的条件生成模型在各种任务中显示出最先进的表现，例如带分类器引导的类条件数据合成（Chen等人，2019），图像超分辨率（Wang等人，2019），图像去模糊（Wang等人，2019）。针对一般线性逆图像恢复问题，提出了去噪扩散恢复模型（DDRM）（Dwork等人，2019），利用预训练的去噪扩散模型进行无监督后验采样。总的来说，到目前为止，扩散模型尚未被考虑在跨模态图像融合领域泛化到不利天气场景中。与现有工作不同，作者将多天气恢复扩展到跨模态融合领域。

3. Proposed Framework

Overview

如图2所示，CFMW包括两个主要阶段。在多天气图像恢复阶段，作者的目标是实现三种不利天气条件（雨、雪、雾）的图像恢复，并使用只有一个预训练权重的统一框架来实现。在跨模态融合阶段，作者旨在整合不同模态的独特特征。受到CFT（Yang等人，2019）的启发，为了展示作者提出的CFM融合模型的有效性，作者将YOLOv5的框架扩展到支持多光谱目标检测。作者在最后一个子节中介绍了为WRDM和CFM精心设计的损失函数和训练过程。

Weather Removal Diffusion Model (WRDM)

去噪扩散模型（Denoising, 1983; Wang et al., 2019）是一类生成模型，它们学习一个马尔可夫链，逐渐将高斯噪声分布转化为由模型训练的数据分布。最初的去噪扩散概率模型（DDPMs）(Shi et al., 2017) 的扩散过程（数据到噪声）和生成过程（噪声到数据）基于一个马尔可夫链过程，导致步骤繁多且耗时巨大。因此，提出了去噪扩散隐式模型（DDIMs）(Shi et al., 2017) 以加速采样，提供了一类更高效的迭代隐式概率模型。DDIMs 通过一类非马尔可夫扩散过程定义生成过程，这些过程与DDPMs具有相同的训练目标，但可以产生确定的生成过程，从而加快样本生成速度。在DDIMs中，隐式采样指的是以确定性的方式从模型的潜在空间生成样本。使用噪声估计网络进行隐式采样可以通过以下方式执行：

此外，WRDM可以被视为一个插件，嵌入到其他工作中，例如可见光与红外图像融合中，以消除多天气条件的影响，这在图5的实验中得到了证明。

Cross-modality Fusion Mamba (CFM)

关于CFMW的损失函数细节在补充材料中阐明。

4. Experiments

实验部分的开头。

Established SWVID benchmark

数据集。在动态环境中，可见图像的色彩范围受到环境干扰的影响而减弱，现有的融合方法由于在相应数据集下缺乏足够的训练，难以充分融合可见光与红外光谱。如图4所示，作者建立了基准数据集SWVID，它是从真实场景中收集的公共数据集（即LLVIP（Kumar等人，2017年）、M3FD（Zhu等人，2017年）、MSRS（Zhu等人，2017年））构建的。它包含了多种均匀分布的场景（白天、夜晚、雨天、雾天和雪天），通过结合不同场景模拟真实环境。此外，作者为受到恶劣天气条件影响的每个可见图像提供了相应的 GT 图像，用于图像融合和图像恢复网络的训练。如表1所示，与先前的可见光-红外数据集相比，SWVID是第一个考虑天气条件的数据集。具体来说，作者从公共的可见光-红外数据集中构建了以下数据集：

图5：多模态融合与目标检测可视化的白天和夜间场景示例，包括三种不利天气条件（雨、雾和雪）。作者将WRDM嵌入到两种最先进的可见光-红外融合方法中（即 CDDFuse [59] 和 DeFusion [25]），以减轻天气条件的不利影响。

评估指标。作者采用常规的峰值信噪比（PSNR）[15] 和结构相似性（SSIM）[47] 对 GT 和恢复图像之间的量化评估。PSNR 主要用于评估图像处理后失真的程度，而SSIM 更关注图像的结构信息和视觉质量。

在目标检测定量实验方面，作者引入了三种目标检测指标：平均精度均值（mAP、mAP50 和 mAP75）以评估目标检测模型的准确性。有关更多计算细节，请参阅补充材料。

Implantation Details

Comparative Experiments

在本节中，作者分别与几种最先进的图像去雪、去雨和去雾方法以及跨模态目标检测方法进行比较。在表2中，作者进行了与以下图像去雪方法（如SPANet (Yang et al., 2017)，DDMSNet (Chen et al., 2017)，DesnowNet (Chen et al., 2017)，RESCAN (Liu et al., 2017)）的比较，去雨（如pix2pix (Liu et al., 2017)，CycleGAN (Liu et al., 2017)，PCNet (Liu et al., 2017)，MPRNet (Wang et al., 2017)），以及去雾（如pix2pix (Liu et al., 2017)，DuRN (Liu et al., 2017)，Attentive-GAN (Liu et al., 2017)，IDT (Liu et al., 2017)）方法的比较，同时还与两种最先进的多天气图像恢复方法：All in One (Huang et al., 2016)和TransWeather (Liu et al., 2017)进行了比较。在表3和表4中，为了证明CFMW的持续改进，作者与几种基础的单一模态目标检测方法（例如，Faster R-CNN (Ren et al., 2015)，SDD (Ren et al., 2015)，YOLOv3 (Liu et al., 2017)，YOLOv5 (Liu et al., 2017)，YOLOv7 (Liu et al., 2017)）以及几种多模态目标检测方法（例如，作者的 Baseline ，标准的双流YOLOv5目标检测网络，以及CFT (Liu et al., 2017)）进行了比较。

表4. 在LLVIP (Liu et al., 2017)数据集上与其他网络的性能比较。

表2. 在PSNR和SSIM（越高越好）方面与最先进的图像去雨、去雾和去雪方法的定量比较。为了公平起见，作者统一使用建立的SWVID数据集的可见光部分作为评估数据集。

表3. 在SWVID-snow数据集上与其他网络的性能比较。

跨模态目标检测比较。如表3和表4所示，作者使用LLVIP [18] 和 SWVID-snow 作为比较数据集。与 SWVID-rain 和 SWVID-foggy 相比，这两个数据集中行人的大小更符合一般目标检测标准。这两个数据集中行人重叠的复杂情况更多，这可以更好地衡量目标检测网络的准确性。表格顶部展示了单模态网络的检测结果，每个网络使用 RGB 模态或热成像模态进行检测。表格底部显示了多模态网络的检测结果，包括作者的 Baseline 模型 CFT [34] 和所提出的 CFMW。根据表3，可以观察到，通过集成 WRDM 和 CFM，CFMW 在每个指标（mAP50:2.3↑, mAP75:4.3↑, mAP:3.0↑）上相对于每种指标上现有的最佳网络在 SWVID-snow 上都取得了压倒性的性能提升，这表明在恶劣天气条件下它具有更好的适应性。同时，如表4所示，CFMW 可以在较低的计算消耗下实现更准确的检测（mAP50:98.8, mAP75:77.2, mAP:64.8），这表明 CFWM 的普遍性。

Ablation Study

在本节中，作者分析了CFMW的有效性。首先通过详细的消融实验以参数形式验证了WRDM和CFM模块在性能改进中的重要性，然后从视觉上展示了WRDM在跨模态融合和目标检测任务中的作用，以突出其作为天气恢复插件的通用性。

消融实验 为了理解作者方法中每个组件的影响，作者进行了一系列全面的消融实验。如表5所示，作者将CFM和WRDM与其他经典检测器结合使用，例如YOLOv7 [45]，YOLOv5 [20]和Faster R-CNN [36]，以展示作者CFMW的普遍有效性。在复杂天气条件下，所提出的CFMW改进了一阶段或两阶段检测器进行跨模态目标检测的性能。具体来说，CFM在mAP50上实现了11.3%的提升，在mAP75上实现了81.6%的提升，在mAP（基于YOLOv5 [20]）上实现了78.3%的提升。在加入WRDM后，作者在mAP50上实现了12.1%的提升，在mAP75上实现了88.2%的提升，在mAP上实现了80.4%的提升。CFM和WRDM为所有考虑的评价指标提供了不可忽视的提升。

视觉解释 为了直观地验证WRDM作为插件的适用性，作者从视觉上展示了WRDM在可见光-红外图像融合和目标检测领域的应用场景。如图5所示，作者与可见光-红外图像融合方法（例如CDDFuse [59]，DeFusion [25]）进行了比较。从图中可以看出，与原始图像相比，使用WRDM前后两种方法的图像融合效果相差很大，经过去天气处理后，可以成功检测到图像远端更多的人。在跨模态目标检测中，丰富的图像细节可以为特征提取和融合提供极大的帮助，直接融合而不去除天气影响会导致图像细节的损失和干扰。

5. Conclusion

在本工作中，作者提出了一种在恶劣天气条件下进行可见光-红外目标检测的新方法，即严重天气可见光-红外数据集（SWVID）。作者为在真实和具有挑战性的环境中训练和评估模型提供了宝贵资源。具有天气消除的跨模态融合Mamba（CFMW）模型，在提高检测准确性的同时，也能很好地管理计算效率。作者的大量实验表明，CFMW在多天气图像恢复和跨模态目标检测两项任务上都超过了现有基准，达到了最先进水平。这项工作为在恶劣天气下的跨模态目标检测开辟了新的可能性。

表5. 在SWVID-snow数据集上进行消融实验。为了展示作者CFMW的普遍有效性，作者进一步将WRDM和CFM模块与其他经典检测器（例如，YOLOv7, YOLOv5, Faster R-CNN）结合。

Appendix A Derivation of Denoising Diffusion Models

去噪扩散隐式模型提供了一种加速预训练扩散模型的确定性采样的新方法，该方法可以生成一致且质量更高的图像样本。接下来的隐式采样利用了广义非马尔可夫前向过程公式：

Appendix B More Details of Loss Functions

Appendix C More Details of Metrics Calculation

PSNR 可以按如下方式计算：

mAP50 在 IoU=0.50 的条件下计算所有类别所有 AP 值的平均值，而 mAP75 在 IoU=0.75 的条件下进行计算，同理。

#DEADiff

本文提出了一种双解耦表示提取机制，分别获得参考图像的风格表示和语义表示，从学习任务的角度缓解了文本和参考图像之间的语义冲突问题。

文章地址：https://arxiv.org/pdf/2403.06951.pdf

项目地址：https://github.com/bytedance/DEADiff

01 导言

基于扩散的文本到图像模型在传递参考风格方面具有巨大的潜力。然而，当前基于编码器的方法在传输样式时严重损害了文本到图像模型的文本可控性。

本文引入了DEADiff，通过两种策略来解决这个问题:1)一种机制来解耦参考图像的风格和语义。解耦的特征表示首先由不同文本描述指示的Q-Formers提取。然后将它们注入到相互排斥的跨注意层子集中，以更好地解开纠缠。2)非重构学习方法。Q-Formers使用成对图像而不是相同的目标进行训练，其中参考图像和真实图像具有相同的风格或语义。

DEADiff在文本到图像模型中固有的文本可控性和与参考图像的风格相似性之间获得了最佳的视觉风格化结果和最佳平衡。

贡献

提出了一种双解耦表示提取机制，分别获得参考图像的风格表示和语义表示，从学习任务的角度缓解了文本和参考图像之间的语义冲突问题。
引入了一种解纠缠的条件反射机制，允许跨注意层的不同部分分别负责图像样式/语义表示的注入，从模型结构的角度进一步减少了语义冲突
使用非重构训练范式构建了两个成对的数据集来辅助DDRE机制

02 方法

DEADiff的训练和推理范式

使用专有的配对数据集来训练Q-Former，以提取“风格”和“内容”条件下的解纠缠表示，并将其注入互斥的交叉注意层。

2.1 双解耦表示提取

受BLIP-Diffusion的启发，该方法通过不同背景的合成图像对来学习主题表示，以避免繁琐的解决方案，作者整合了两个辅助任务，它们利用Q-Formers作为非重构范式内嵌套的表示过滤器。这能够含蓄地辨别出图像中风格和内容的分离表示。

一方面，对一对不同的图像进行采样，它们保持相同的风格，但分别作为稳定扩散(SD)生成过程的参考和目标，如图2(a)中的a对所示。将参考图像输入CLIP图像编码器，其输出通过交叉注意与QFormer的可学习查询令牌及其输入文本进行交互。在这个过程中，将单词“style”作为输入文本，期望生成与文本对齐的图像特征作为输出。该输出封装了风格信息，然后与详细描述目标图像内容的标题相结合，并为去噪U-Net提供条件。这种提示组合策略的动机是为了更好地将风格从内容标题中分离出来，从而使Q-Former能够更多地专注于以样式为中心的表示的提取。这个学习任务被定义为风格表示提取，简称STRE。

另一方面，合并了一个相应的对称内容表示提取任务，称为SERE。如图2(a)中的B对所示，选择两幅题材相同但风格不同的图像，分别作为参考图像和目标图像。重要的是，将Q-Former的输入文本替换为单词“content”，以提取相关的特定于内容的表示。为了获得纯粹的内容表示，同时提供Q-Former的查询令牌输出和目标图像的文本样式词，作为去噪U-Net的条件。在这种方法中，Q-Former将在生成目标图像时筛除嵌套在CLIP图像嵌入中的与内容无关的信息。

同时，将重建任务合并到整个管道中。条件反射提示符由“风格”Q-Former和“内容”Q-Former为这个学习任务处理的查询令牌组成。这样就可以保证Q-Formers不会忽视本质的图像信息，同时考虑到内容和风格之间的互补关系。

2.2 解耦条件作用机制

2.3 配对数据集的构建

准备具有相同风格或主题的一对图像是一项不平凡的工作。幸运的是，现有的最先进的文本到图像模型已经证明了对给定文本提示的高保真度。因此，通过结合主题词和风格词手动创建文本提示列表，并利用预训练模型构建两个配对的图像数据集-一个具有相同风格的样本，另一个具有相同主题的样本。形式上，配对数据集的构建包括以下三个步骤:

步骤1:文字提示组合

列出了近12000个主题词，涵盖了四个主要类别:人物、动物、物体和场景。此外，还注意到近700个风格词，其中包括艺术风格、艺术家、笔触、阴影、镜头、分辨率和视角等属性。然后，从所有风格词中平均为每个主题词分配大约14个风格词，这些组合形成用于文本到图像模型的最终文本提示。

步骤2:图像生成和收集

将文本提示与主题词、文体词结合起来，获得了超过16万条提示。随后，将所有的文本提示发送到领先的文本-图像生成产品Midjourney，合成相应的图像。作为Midjourney的一个特点，给定提示符的直接输出包含4张分辨率为512 × 512的图像。将每个图像上采样到分辨率1024 × 1024，并根据给定的提示进行存储。由于数据收集的冗余性，最终总共收集了106万对图像-文本对。

步骤3:配对图像选择

即使使用相同风格的词，不同主题词生成的图像也存在显著差异。鉴于此，对于风格表征学习任务，使用了两幅不同的图像，它们分别作为参考和目标，如图2(a)所示。为了实现这一目标，存储具有与单个项目相同提示的图像，并在每次迭代中随机选择两个图像。在图2(b)所示的内容表示学习任务中，将具有相同主题词但不同风格词的图像配对为单个项目。最终为前一个任务获得了一个超过16万项的数据集，为后一个任务获得了一个106万项的数据集。

2.4 训练和推理

在训练过程中，只对Q-Former和新增加的线性投影层进行优化。推理过程如图2(b)所示。

03 实验结果