w~视觉~合集14-CSDN博客

本文链接：https://blog.csdn.net/weixin_49587977/article/details/146227734

我自己的原文哦~ https://blog.51cto.com/whaosoft/13538162

#V2L-Tokenizer

文章链接：https://arxiv.org/pdf/2403.07874.pdf

代码和模型:https://github.com/zh460045050/V2L-Tokenizer

今天和大家分享的这项工作非常有创意，研究和挖掘了大语言模型（LLM）直接理解视觉信号的潜力，而无需在多模态数据集上进行微调。方法的基础概念将图像视为一种语言实体，并将其翻译成LLM词汇表中派生的一组离散单词。为了实现这一点，本文提出了一种名为视觉到语言Tokenizer（Vision-to-Language Tokenizer，简称V2L Tokenizer）的工具，它通过编码器-解码器、LLM词汇表和CLIP模型的共同帮助，将图像转换为一种“外语”。通过这种创新的图像编码，LLM不仅获得了视觉理解的能力，而且还能够以自回归的方式进行图像去噪和恢复————关键是，无需任何微调。严格的实验验证发现，包括图像识别、图像描述、视觉问答等理解任务，以及包括修复、扩展、去模糊和位移恢复等图像去噪任务。

介绍

在自然语言处理（NLP）领域，通过部署大语言模型（LLMs），如GPT、PaLM和LLaMA，已经取得了显著的进步。为了解决需要结合文本和视觉理解的复杂挑战，学者们正在扩展现成LLMs的能力。这种增强涉及整合额外的视觉处理组件，以促进对视觉内容的理解或从文本生成图像。随后，这些改进的模型会使用各种多模态数据集进行额外的再训练或微调，以使视觉潜在空间与语言潜在空间对齐。然而，这种精炼过程通常需要大量的训练资源。

如上图1所示，我们的目标是为大语言模型赋予理解视觉信号的内在能力，重要的是，无需微调。在本方法中，将每个图像视为来自“外语”的语言实体，使其适应普通LLM的输入要求。因此，这种对齐发生在输入（token）空间而不是特征空间中，这区别于以前的多模态方法，这些方法需要微调来进行模态对齐。因此，在我们的方法论中，可以避免在多模态数据集上进行微调或再训练的过程。我们的技术将图像翻译成一组离散的token，这些token在LLM的词汇表中。一旦翻译完成，这些token就可以输入到LLM中，使其能够处理和理解视觉信息，从而促进一系列涉及图像理解和去噪的任务。

将图像翻译成一组冻结LLM可以理解的token是一项挑战。这项工作中介绍了一种 Tokenizer ，旨在将图像（一种非语言模态）映射到冻结LLM的输入（token）空间。这种 Tokenizer 被称为视觉到语言 Tokenizer （Vision-to-Language Tokenizer，简称V2L Tokenizer）。V2L Tokenizer的设计灵感来自于VQ-GAN 的成功，采用了编码器-量化器-解码器结构。然而，它的目标是将视觉信息翻译到LLM的token空间，这与它的灵感来源不同，后者旨在学习一个独立的潜在空间，仅用于图像生成。我们的V2L Tokenizer放弃了优化随机初始化的量化器codebook的标准过程；相反，它在整个训练过程中利用LLM的现有词汇作为其量化器codebook。在量化损失函数的指导下，图像在优化过程完成后被转换为一组LLM tokens。

通常，LLM的词汇表由完整的单词和子词单元组成，这是由于使用了诸如BPE和SentencePiece这样的语言Tokenizer。不失一般性，这个词汇表的广度影响其将图像编码为LLM tokens的能力————更大的词汇表通常提供更强大的表示能力。在我们的方法中，我们通过组合其词汇项形成二元组或三元组来扩展LLM的词汇表，这在将图像映射到LLM tokens时显著增加了表示能力。除了将每个图像块转换为语言token外，我们的V2L Tokenizer 还包括提取整个图像的全局表示。我们通过使用来自扩展LLM词汇表的子词、二元组或三元组的组合来实现这一点，以封装图像的全面信息。

在LLM中，上下文学习已被证明对zero-shot推理非常有益。这是通过在LLM推理过程中，在指令文本前加上一些特定领域的示例来实现的。我们的方法避免了LLM微调的必要性，而是采用上下文学习来指导LLM模仿给定的少数样本中的模式。这使得模型能够更好地理解“外语”（即视觉模态）。

从实验上看，我们的工作在这种新场景中超越了以前的尝试，其中LLM能够在没有任何微调或再训练的情况下理解视觉信号，包括图像描述和视觉问答等理解任务，以及包括修复、扩展、去模糊和图像恢复等图像去噪任务。

#LocalMamba

在本文中，作者介绍了LocalMamba，一种新的视觉状态空间模型，它显著增强了对图像局部依赖关系的捕捉能力，同时保持了全局上下文理解。作者的方法利用了窗口化选择性扫描和扫描方向搜索，取得了显著优于现有模型的效果。

近期，以Mamba为代表的状态空间模型（State Space Models）在诸如自然语言理解等序列建模任务中取得了显著进展。然而，其在视觉任务中的应用并没有表现出相较卷积神经网络（CNNs）和视觉Transformer（ViTs）的明显优势。

来自悉尼大学、商汤等机构的研究者指出，不同于视觉Transformer，Mamba中序列的扫描方向对其精度提升至关重要。传统的视觉Mamba（ViMs）方法只是简单地将图像token通过逐行或逐列扫描铺平成一维序列，从而增加了图像中相邻token的距离，弱化了局部2D依赖关系的建模。

因此，作者引入了一种新颖的局部扫描策略，通过将图像划分为不同的窗口，有效地捕捉了局部依赖关系，同时保持Mamba原有的全局依赖能力。此外，作者还提出了一种动态搜索方法，用于为不同层搜索其最优的扫描方向组合，显著提升了性能。此方法得到的LocalMamba模型，刷新了Mamba模型在通用视觉任务上新的SOTA。

论文地址：https://arxiv.org/pdf/2403.09338.pdf

开源代码：https://github.com/hunto/LocalMamba

1 引言

状态空间模型（SSMs）凭借其对序列长度具有线性时间复杂度的优势，在自然语言处理等序列建模任务中表现出了更好的计算效率与精度平衡。在Mamba成功的基础上，诸如Vim [2]、VMamba [3]等方法将SSM应用到了通用视觉任务上，并在图像分辨率较高的场景下取得了显著的计算量及内存占用优势。

图1 不同扫描机制示意图。(a)、(b)：Vim和VMamba使用逐行或逐列扫描，造成了局部区域中token的割裂。(c)：LocalMamba提出的窗口化局部扫描机制能够显著减小局部区域内相邻token的距离。

然而，如图1所示，先前的方法逐行或逐列扫描图像，造成了原本在2D空间上相邻的token的割裂，增加了局部区域特征提取的难度。为了解决这一问题，本文提出了一种局部扫描机制用于提升视觉Mamba的局部表示能力。该机制首先将图片划分成多个独立窗口，再使用先窗口内扫描、后窗口间扫描的顺序，保证了属于同一个2D语义空间的token能够彼此靠近地输入SSM进行特征建模。这一机制能够显著地提升模型的局部细节捕捉能力。如图2所示，仅通过给Vim中原有的全局扫描增加局部扫描机制，本方法在相近的计算量下取得了显著的ImageNet分类精度提升。

图2 加入本文的局部扫描机制后，Vim在相近的FLOPs下取得了显著提升

同时，考虑到不同扫描方向对特征有不同的影响（例如，窗口大小为3的局部扫描擅长捕捉较小的目标和细节，而窗口大小为7则更适合较大目标），本文引入了一种扫描方向搜索方法，以为每层网络选择最优的方向组合。

最终，为了验证方法的有效性，作者在扁平结构的Vim以及层次结构的VMamba上均加入了LocalMamba方法，并在图像分类、目标检测、语义分割任务上进行了实验，相较之前方法取得了明显提升。

2 方法介绍

局部扫描与全局扫描结合的多分支结构

本文通过实验发现，本文提出的局部扫描机制和原始的全局扫描机制对特征提取有不同的贡献，将二者结合使用能够最大化模型性能。因此，如图2所示，作者使用了一种多分支扫描结构，将图像输入扫描成4个方向（分别为逐行扫描、反向逐行扫描、2x2局部扫描、反向2x2局部扫描），并将SSM处理后的序列融合成一个图像。

图3 （a）本文使用的多分支扫描与融合结构。（b）本文提出用于提升分支融合效果的注意力模块。

为了增强不同扫描特征的融合并消除特征中的无关信息，本文在特征合并前使用了一个注意力模块，用于自适应地根据各个分支特征进行特征加权，最后通过相加的方式将多个分支融合成一个分支。

与视觉Transformer中窗口化注意力的对比。尽管如Swin Transformer这样的ViT模型也提出了将图像划分为窗口的方法，但是本文得局部扫描机制在目的和效果上都是独特的。ViTs中的窗口自注意力主要是为了解决原始Transformer中全局注意力的计算效率问题，并牺牲了一定的全局注意力能力。而本文得局部扫描机制旨在重新排列图像token位置，以增强视觉Mamba模型对局部依赖的建模能力，同时因为整个图像序列仍然通过SSM进行处理，仍保留了模型的全局理解能力。

自适应的扫描方向搜索

状态空间模型（SSMs）在捕捉图像表示方面的有效性因扫描方向的不同而有所差异。直观上，要达到最优性能，需要在不同方向上进行多次扫描，类似于本文之前讨论的4分支局部选择扫描块。然而，这种方法大大增加了计算需求。

为了解决这个问题，作者提出了一种方向搜索策略，可以有效地为每一层选择最合适的扫描方向，从而在不过度增加计算成本的情况下优化性能。这种方法涉及为每一层搜索最优的扫描配置，确保进行定制且高效的表示建模。

搜索空间：对于模型的每一层，本文设计了8个候选方向：逐行扫描、反向逐行扫描、逐列扫描、反向逐列扫描、2x2局部扫描、反向2x2局部扫描、7x7局部扫描、反向7x7局部扫描。为了保持与之前模型一致的计算量，每一层从这8个方向中选择4个方向得到最终的扫描模块。

基于可微分模型结构搜索（DARTS）的原则，作者的方法应用了一种可微分的搜索机制来寻找扫描方向，并将离散的选择松弛为连续的softmax概率：

使用这种不同扫描方向的加权求和，本文构建了一个包含所有分支的网络用于搜索方向。通过在原始任务上训练该模型，模型会自适应地学习到对不同方向的偏好，即概率越高代表模型在该层中越倾向于选择这一方向。最终，作者通过选择概率最高的4个方向作为搜索结果。搜索到的方向组合如图4所示。

图4 LocalVim-T和LocalVMamba-T搜索结果

3 实验

图像分类

本文使用ImageNet-1K数据集进行图像分类基准测试。如表1所示，作者的结果显示，相较于传统的CNN和ViT方法，LocalMamba准确度有了显著的提升。例如，LocalVim-T在1.5G FLOPs的情况下达到了76.2%的准确率，超过了准确率为72.2%的DeiT-Ti。在分层结构中，LocalVMamba-T的82.7%准确率比Swin-T高出1.4%。此外，与Vim和VMamba相比，作者的方法取得了显著的增益。例如，LocalVim-T和LocalVMamba-T在准确度上分别超过Vim-Ti和VMamba-T 2.7%和0.5%。

表1 ImageNet图像分类实验结果

另外，为了验证局部扫描的有效性，作者在没有扫描方向搜索的模型上进行了额外的实验。仅将局部扫描融入到原始Vim框架中，LocalVim-T就比Vim-Ti的准确率高出了2.7%，而完整的方法进一步将准确度提高了0.4%。这些发现确认了扫描方向在视觉SSMs中的关键作用，证明了作者局部扫描方法能有效增强局部依赖的捕获能力。

目标检测与分割

表2 目标检测及实例分割结果

作者在表2中总结了LocalVMamba与其他基础网络的对比结果。可以看出，LocalVMamba在所有模型变体上均一致优于VMamba。与其他架构，即卷积神经网络（CNNs）和视觉 Transformer（ViTs）相比，模型获得了显著的优势。例如，LocalVAMaba-T获得了46.7的检测AP和42.2的分割AP，分别较Swin-T大幅提高了4.0和2.9。

语义分割

表3 语义分割结果

作者在表3中报告了LocalVim和LocalVMamba的语义分割结果。在LocalVim上，相比于基线模型Vim-Ti，作者取得了显著的改进。例如，在相似的参数量下，LocalVim-S在mIoU（SS）上比Vim-S高出1.5个点。而在LocalVMamba上，相比于VMamba，作者也取得了显著的改进。例如，LocalVMamba-T达到了49.1的出色mIoU（MS）分数，比VMamba-T高出0.8。与CNN和ViT相比，作者的改进更为明显。这些结果证明了SSMs全局表示在密集预测任务中的有效性。

4 总结

在本文中，作者介绍了LocalMamba，一种新的视觉状态空间模型，它显著增强了对图像局部依赖关系的捕捉能力，同时保持了全局上下文理解。作者的方法利用了窗口化选择性扫描和扫描方向搜索，取得了显著优于现有模型的效果。在多个数据集和任务上的广泛实验已经证明了LocalMamba相较于传统卷积神经网络（CNN）和视觉 Transformer（ViTs）的优越性，为图像分类、目标检测和语义分割建立了新的基准。作者的研究强调了扫描机制在视觉状态空间模型中的重要性，并为高效和有效的状态空间建模研究开辟了新的途径。未来的工作将探索作者的方法扩展到更复杂和多样化视觉任务的可行性，以及整合更先进的扫描策略的潜力。

#SFDA~

本文从多模态大模型这一全新的视角来思考SFDA问题，首次探索了现成的视觉--语言多模态模型（ViL, 具有丰富异构知识）的辅助迁移潜力。

论文题目：《Source-Free Domain Adaptation with Frozen Multimodal Foundation Model》

arxiv地址：https://arxiv.org/abs/2311.16510v3

开源代码：https://github.com/tntek/source-free-domain-adaptation（我们写了一个Soure-free Domain Adaptation的通用框架，非常欢迎大家添加自己的方法！）

Abstract

无源域适应 (SFDA)是无监督领域自适应问题（UDA）的一个新分支，本质是将一个在源领域预训练好的模型迁移到另一个没有标签信息的目标领域，在迁移过程中，源领域是不可见的。针对该问题，目前的主流方法是构建伪标签或者挖掘辅助信息，来监督迁移过程，以实现领域自适应。但是，在无监督约束下，这种策略会不可避免地引入语义错误，从而限制迁移性能。在本文中，我们从多模态大模型这一全新的视角来思考SFDA问题，首次探索了现成的视觉--语言多模态模型（ViL, 具有丰富异构知识）的辅助迁移潜力。在运用ViL模型解决下游任务的过程中，我们发现以零样本方式直接将基础大模型应用于目标域并不令人满意，因为它所蕴含的知识是通用的，而不是都适用于特定任务。

以此为逻辑基点，我们提出了一种迁移多模态基础模型所蕴含通用知识的SFDA方法（简称DIFO）。具体来说，DIFO对应的的迁移过程由两个交替步骤构成：（1）通过提示学习最大化与目标模型的互信息来定制化多模态基础模型，然后，（2）将这个定制好的多模态知识提炼到目标模型。为了更细粒度、更可靠进行知识迁移，我们还引入了两个有效的正则化设计，即最可能类别约束，以及预测一致性约束。我们在四个开源的挑战性数据集上测试了DIFO的性能。实验结果表明DIFO明显优于现有方法。

Contributions

首次利用通用但异构的知识源（例如现成的ViL模型）来解决SFDA问题，超越了源域模型与无标注目标数据所表达的有限知识边界；
提出了新颖的DIFO方法，从通用ViL模型中有效地提取有用的特定任务知识；
DIFO在经典的closed-set setting，以及更具挑战性partial-set 和open-set settings下取得 SOTA性能。

Methodology

1.Problem statement

2.Overview

DIFO框架在两个不同的步骤之间交替来定制和提炼现成的ViL模型的知识

第一步，我们使用prompt learning实现ViL模型面向特定任务的定制化，从而减轻了 ViL 模型中的引导误差。为实现该目的，我们采用基于互信息的协调方法加以实现。相比于传统的KL散度、MMD等量度，这种方法最大的特点是提高了目标域模型和 ViL 模型之间上下文的交互丰富性，而不是盲目地信任的任何一个模型。第二步，为了实现通用知识可靠的迁移，我们引入了最可能类别约束和预测一致性约束，这些约束使得目标域模型能够在logit空间中识别出最可能的类别标签，等价地引入类别显然分布，同时保持目标模型和ViL 模型的预测一致性，来实现小尺度的精细分类。在这里，最可能类别标签是由记忆感知预测器给出，该预测器以累积的方式动态存储并更新来自目标模型和 ViL 模型的知识。

3.Task-Specific ViL Model Customization(特定任务的 ViL 模型定制)

我们采用prompt learning 的框架进行ViL模型定制化，在此过程中，ViL模型的所有参数全部冻结，唯一可学习的部分是为特定任务分配的 text prompt。为了优化这些 prompt，我们需要有效的监督，然而，在SFDA问题设定中，由于缺乏有监督训练的参考模型，这意味着没有明确的良好监督信号可供使用。为了解决这个问题，受群体学习的思想启发，我们将ViL模型和目标域模型的输出看作两堆具有智慧的群体，用它们之间的互动与交流，作为弱监督信号，来实现无偏学习。具体来讲，我们通过最大化他们的预测的互信息来实现模型定制，其具有如下形式：

4. Memory-Aware Knowledge Adaptation(记忆感知知识适应)

虽然将ViL模型向目标模型进行了定制，但由于之前没有可靠目标模型，ViL 模型也可能无法完全适应。这种限制阻碍了第二阶段有效的知识迁移。为了解决这个问题，我们提出一个专用的记忆感知预测器来提供额外的学习指导即最有可能的类别鼓励，并结合传统的预测一致性约束，从未实现了一种可靠的、从粗粒度到细粒度的分类。

4.1 Memory-aware predictor(记忆感知预测器)

(1)记忆感知预测器

(2)类别注意力校准

5. Predictive Consistency（预测的一致性）

预测一致性损失为：

Model training（模型训练）

Experiments

在我们的实验中，我们报告了Office31, Office-Home, VisDA和DomainNet126 数据集上的结果。为了保证公平性，我们遵循与其他主流方法相同的数据集处理方法和训练方式。我们将 DIFO与18种现有的方法分为三组进行比较。

第一组包含 Source，CLIP 和 Source+CLIP，其中 Source+CLIP 直接平均源模型和 CLIP 的结果。
第二组包含3种和CLIP结合的最先进的UDA方法。
第三组包含13种先进的SFDA方法

此外，为了进行全面比较，我们在中实现 DIFO两个变体：(1) DIFO-C-RN（弱版本）和（2）DIFOC-B32（强版本）。关键区别在于 CLIP 图像编码器的backbone。对于 DIFOC-RN，在 VisDA 数据集上采用 ResNet101 以及 ResNet50 用于其他三个数据集。DIFO-C-B32 采用 ViTB/32 。

1.Comparison Results

DIFO-C-B32 在 Office-31 上的 6 项任务中的 4 项中获得了最佳结果，同时在其他三个数据集的所有任务上超越了之前的方法。DIFO-C-RN，除了 Office-31 之外，它获得了第二好的结果，在 Office-Home、VisDA 和 DomainNet-126 上的平均准确率比之前最好的结构高。

DIFO-C-B32 在所有任务上均优于 CLIP-B32。同样的，DIFO-C-RN也优于 CLIP-RN。这表明，原始CLIP模型的领域通用性不能完全适用于目标领域，需要针对特定任务进行定制化。DIFO-C-B32 在所有任务上也均优于Source+CLIP-B32，这说明简单的加权方法无法实现理想的任务特定融合，需要精心设计的蒸馏方法。

2. Comparison on Partial-set and Open-set SFDA settings

这些是传统 Closed-set SFDA 的变体，与 SHOT相同

我们的方法也超过了目前最优。

3.Feature distribution visualization

使用t-SNE和3D密度图在Office-Home的Ar→Cl 任务上可视化了特征分布

可以看出DIFO的分布是最接近Oracle的分布。

4.Ablation Study

4.Task-Specific Knowledge Adaptation Analysis

我们使用特征空间移位分析，利用MMD（maximum mean discrepancy）测量来验证所提出的方法。在这个实验中，我们首先在所有具有真实标签的 Office-Home 数据上训练一个域不变的 Oracle 模型，表示理想的特定任务空间。我们对Office-Home中Ar→Cl这个迁移任务进行分析。

图中红色代表目标域模型（TGT），蓝色代表定制的CLIP模型（CUS-CLIP）。左图代表这两个模型空间到理想空间的MMD距离。右图代表训练过程中两个模型准确率变换。在前四个epoch，观察左图，这两模型空间距离理想域的MMD距离急剧下降，这一变化也符合准确率的变化，图右侧所示。这些结果表明，DIFO使得知识向理想的特定任务空间中收敛。

最后大佬的项目哦

https://github.com/tntek/source-free-domain-adaptation

#FRESCO

该工作不仅涉及对注意力的指导，还包括对特征的显式更新，以实现与输入视频高度一致的空间-时间一致性，显著提高了所生成视频的视觉连贯性。大量实验证明了FRESCO框架在生成高质量、连贯的视频方面的有效性，相较于现有的zero-shot方法有着显著改进。

论文：https://arxiv.org/pdf/2403.12962.pdf

代码：https://github.com/williamyang1991/FRESCO

工程：https://www.mmlab-ntu.com/project/fresco/

文本到图像扩散模型在图像领域的显著功效激发了人们对其在视频领域应用潜力的广泛探索。zero-shot方法旨在将图像扩散模型扩展到视频领域，而无需进行模型训练。最近的方法主要集中在将帧间对应关系纳入注意力机制中。然而，对于确定在哪里注意到有效特征的软约束有时可能不足，导致时间不一致性。本文引入了FRESCO，即帧内对应与帧间对应相结合，建立更强大的空间-时间约束。这种增强确保了跨帧语义相似内容更一致地转换。我们的方法不仅涉及对注意力的指导，还包括对特征的显式更新，以实现与输入视频高度一致的空间-时间一致性，显著提高了所生成视频的视觉连贯性。大量实验证明了FRESCO框架在生成高质量、连贯的视频方面的有效性，相较于现有的zero-shot方法有着显著改进。

介绍

在当今数字时代，短视频已经成为主要的娱乐形式。这些视频的编辑和艺术渲染具有相当重要的实际意义。最近扩散模型在图像编辑方面取得的进展已经通过自然语言提示使用户能够方便地操纵图像。尽管在图像领域取得了这些进展，视频处理仍然存在独特的挑战，特别是在确保自然运动和时间一致性方面。

通过在大量视频数据集上训练视频模型或在单个视频上微调重构的图像模型可以学习到具有时间一致性的运动，然而这既不经济也不方便普通用户。作为替代，zero-shot方法通过改变图像模型的推理过程，使用额外的时间一致性约束，为视频处理提供了一种高效的途径。除了高效之外，zero-shot方法还具有与设计用于图像模型的各种辅助技术（如和LoRA）高度兼容的优点，使得操作更加灵活。

现有的zero-shot方法主要集中在改进注意力机制上。这些技术通常用跨帧注意力替换自注意力，跨多个帧聚合特征。然而，这种方法只确保了粗粒度的全局样式一致性。为了实现更精细的时间一致性，像Rerender-A-Video和FLATTEN这样的方法假设生成的视频保持与原始视频相同的帧间对应关系。它们将原始视频的光流引入到特征融合过程中。虽然这种策略表现出了希望，但仍存在三个未解决的问题。

不一致性。 在处理过程中光流的变化可能导致不一致的引导，从而导致在没有适当前景移动的情况下，前景的部分出现在静止背景区域中（图2(a)(f)）。
覆盖不足。 在遮挡或快速运动影响光流精确估计的区域，生成的约束不足，导致变形，如图2(c)-(e)所示。
不准确性。 逐帧生成受限于局部优化，随着时间的推移错误会累积（图2(b)中由于前几帧没有参考手指导致手指缺失）。

为了解决上述关键问题，我们提出了FRamE Spatial-temporal COrrespondence （FRESCO）。虽然先前的方法主要集中在约束帧间的时间对应上，但我们认为保留帧内的空间对应同样至关重要。我们的方法确保语义上相似的内容被协调地操作，从而在转换后保持其相似性。这种策略有效地解决了前两个挑战：它防止了前景被错误地转换到背景中，并增强了光流的一致性。对于光流不可用的区域，原始帧内的空间对应可以作为一种监管机制，如上图2所示。

在本方法中，FRESCO被引入到两个层面：注意力和特征。在注意力层面上，引入了FRESCO引导的注意力。它在[5]中的光流引导基础上构建，并通过整合输入帧的自相似性丰富了注意力机制。它允许有效利用输入视频的帧间和帧内线索，以更受约束的方式将注意力集中于有效特征上。

在特征层面上，提出了FRESCO感知特征优化。这不仅仅影响特征注意力；它通过梯度下降对U-Net解码器层中的语义上有意义的特征进行了明确更新，以与输入视频的高空间-时间一致性密切对齐。这两个增强的协同作用导致了性能的显著提升，如图1所示。为了克服最后一个挑战，采用了多帧处理策略。批处理内的帧是集体处理的，使它们可以相互指导，而anchor帧在批处理之间是共享的，以确保批处理间的一致性。对于长视频转换，使用了一种启发式方法来选择关键帧，并对非关键帧帧进行插值。

本工作的主要贡献包括：

一种由帧时空对应引导的新型zero-shot扩散框架，用于连贯灵活的视频转换。
将FRESCO引导的特征注意力和优化结合起来，作为一个强大的帧内和帧间约束，比单独使用光流具有更好的一致性和覆盖性。
通过联合处理批处理帧并确保批处理间一致性来进行长视频转换。

#MiniGPT4-Video

秒懂视频的AI诞生了！KAUST和哈佛大学研究团队提出MiniGPT4-Video框架，不仅能理解复杂视频，甚至还能作诗配文。

几天前，OpenAI官方账号发布了第一支由Sora制作的MV——Worldweight，引全网围观。

AI视频，已然成为多模态LLM发展的大趋势。

然而，除了视频生成，让LLM对复杂视频进行理解，也至关重要。

最近，来自KAUST和哈佛大学的研究人员提出了MiniGPT4-Video——专为视频理解而设计的多模态大模型。

论文地址：https://arxiv.org/pdf/2404.03413.pdf

值得一提的是，MiniGPT4-Video能够同时处理时态视觉数据和文本数据，因此善于理解视频的复杂性。

比如，上传一个宝格丽的首饰宣传视频。

MiniGPT4-Video能够为其配出标题，宣传语。

再比如，使用虚幻引擎制作的视频，新模型可以对其进行理解。

能看出这个视频使用了后期处理和特效，而不是实际拍摄出来的。

甚至，看过一簇簇花盛开的视频，MiniGPT4-video即兴作出了超美的抒情诗。

基于MiniGPT-v2，MiniGPT4-video将其能力扩展到处理帧序列，以便理解视频。

MiniGPT4-video不仅考虑了视觉内容，还纳入了文本对话，使该模型能够有效地回答涉及视觉和文本内容的查询。

实验结果显示，新方法在MSVD、MSRVTT、TGIF和TVQA基准上分别提高了4.22%、1.13%、20.82%和13.1%。

接下来，一起看看MiniGPT4-video还能做什么？

更多演示

上传一个宝宝戴眼镜看书的视频后，MiniGPT4-video可以理解搞笑点在哪里。

提取视频中核心要义，也不在话下。

你还可以让MiniGPT4-Video生成一个创意性的广告。

解说视频也是超级厉害。

MiniGPT4-Video能能够拥有如此强大视频解读能力，究竟是怎么做到的？

技术介绍

MiniGPT-v2通过将视觉特征转化为LLM空间，从而实现了对单幅图像的理解。

他的结构如下图2所示，由于LLM上下文窗口的限制，每段视频都要进行帧子采样，帧数（N）由LLM的上下文窗口决定。

随后，使用预先训练好的模型EVA-CLIP，将视觉帧与文本描述对齐，然后使用线性层将其映射到大型语言模型空间。

与MiniGPT-v2类似，研究人员将每幅图像中每四个相邻的视觉token浓缩为一个token，从而将每幅图像的token数减少了 75%，从256个减少到64个。

在训练过程中，研究人员会随数据集提供字幕，但在推理过程中或视频没有字幕时，研究人员会利用语音到文本模型（如 whisper）生成视频字幕。

帧字幕使用LLM tokenizer进行token化，将每个采样帧的视觉token和文本token进行连接。指令token被附加到输入序列的末尾，然后模型输出问题的答案。

训练流程

大规模图像-文本对预训练

在第一阶段，研究人员训练了一个线性层。

它将由视觉编码器编码的视觉特征（例如 EVACLIP ）投影到LLM的文本空间中，并采用captioning loss。

研究人员利用了一个结合的图像描述数据集，包括来自LAION、概念性标题（Conceptual Captions）和SBU的图像，以将视觉特征与LLM的输入空间对齐。

大规模视频-文本对预训练

在第二阶段，研究人员使模型通过输入多帧来理解视频。

具体来说，研究人员从每个视频中抽取最多N帧。在此阶段，研究人员使用以下模板中的预定义提示：

<s>[INST]<Img><FrameFeature_1><Sub><Subtitle text_1>... <Img> <FrameFeature_N><Sub><Subtitle text_N><Instruction></INST>

抽取的帧数取决于每个语言模型的上下文窗口，特别是对于Llama 2，上下文窗口是4096个tokens，而Mistral的上下文窗口是8192个tokens。

在研究人员的方法中，他们用了64个tokens表示每个图像。

因此，对于Llama 2，研究人员指定N=45帧，相当于2880个tokens用于视觉内容表示。

此外，研究人员为字幕分配1000个tokens，而剩余的tokens用于模型输出。

类似地，在Mistral的情况下，上下文窗口加倍，N相应地加倍到N=90帧，以确保与扩展的上下文窗口兼容。

在此提示中，每个<FrameFeature>都由视觉主干编码的采样视频帧替换。

<Subtitle text>代表相应帧的字幕，<Instruction>代表研究人员预定义的指令集中随机采样的指令，包含多种形式的指令，如「简要描述这些视频」。

研究人员使用结合了CMD和WebVid的视频描述数据进行大规模视频描述训练。

视频问题解答指令微调

在这一阶段，研究人员采用与第二阶段相同的训练策略，但重点是利用高质量的视频答题数据集进行教学微调。

这一微调阶段有助于提高模型解释输入视频和生成精确回复的能力。

解释输入视频并生成相应的问题。模板与第二阶段模板与第二阶段的模板相同，但将 <Instruction> 替换为Video-ChatGPT数据集中提到的一般问题。

实现细节

在三个训练阶段中，研究人员保持批大小为4，并使用AdamW优化器结合余弦学习率调度器，将学习率设置为1e4。

研究人员的视觉主干是EVA-CLIP，进行了权重冻结。

值得注意的是，研究人员训练了线性投影层，并使用LoRA对语言模型进行了高效微调。

具体来说，研究人员微调了Wq和Wv组件，排名(r)为64，LoRA-alpha值为16。整个模型以一致的224×224像素的图像分辨率进行训练，确保了所有阶段的统一性。

多项基准，刷新SOTA

为了对最新提出的架构进行全面评估，研究人员评估了三种基准类型的性能：Video-ChatGPT、Open-ended Questions和Multiple-Choice Questions (MCQs)。

表1所示的VideoChatGPT基准测试中，最新模型在没有字幕的情况下与之前的方法不相上下。

当研究人员将字幕作为输入时，模型在所有五个维度上都取得了SOTA。

这验证了研究人员的模型可以利用字幕信息，来提高视频的理解。

在另外两个基准测试评估中，MiniGPT4-Video明显优于最新的SOTA方法。

它在MSVD、MSRVTT、TGIF和TVQA基准上分别实现了4.22%、1.13%、20.82%和13.1%的显着改进。

带字幕和不带字幕的结果进一步表明，将字幕信息与视觉提示集成可显著提高性能，TVQA的准确率从33.9%提高到54.21%。

定性结果

更多的定性结果，如下图所示。

最后，研究人员还将MiniGPT4-video与VideoChatGPT相比较。

可以看出，针对一个问题，最新方法的回复更加全面。

总之，MiniGPT4-video有效地融合了视频领域内的视觉和对话理解，为视频问答提供了一个引人注目的解决方案。

不过，缺陷在于上下文窗口限制。

具体来说，当前版本要求Llama 2视频长度为45帧（不到一分半），Mistral版本的视频长度为90帧（不到三分钟）。

因此，下一步研究将模型能力扩展到处理更长视频的能力。

参考资料：

https://arxiv.org/pdf/2404.03413.pdf

#Samba

该工作提出了高分辨率遥感图像的语义分割框架 Samba，性能指标均超越了 CNN-based 和 ViT-based 方法，证明了 Mamba 在遥感高分图像中作为新一代 backbone 的潜力，为遥感语义分割任务提供了 mamba-based 方法的表现基准。

论文：https://arxiv.org/abs/2404.01705

源码：https://github.com/zhuqinfeng1999/Samba

导读

本文将为大家介绍由来自西交利物浦大学、澳大利亚科学与工业研究院矿物研究所以及利物浦大学联合提出的最新工作 Samba，这是一种基于状态空间模型的遥感图像语义分割方法。该工作提出了高分辨率遥感图像的语义分割框架 Samba，性能指标均超越了 CNN-based 和 ViT-based 方法，证明了 Mamba 在遥感高分图像中作为新一代 backbone 的潜力，为遥感语义分割任务提供了 mamba-based 方法的表现基准。值得一提的是，Samba 是第一个将状态空间模型（SSM）运用到遥感图像语义分割任务中的工作，代码已开源，欢迎关注。

背景

高分辨率遥感图像对常用的语义分割方法提出了挑战，如卷积神经网络（CNN）和Vision Transformer（ViT）。CNN-based方法难以处理这种高分辨率图像，因为它们的感受野受限，而ViT面临处理长序列的挑战。

受到状态空间模型（SSM），也叫Mamba，能够有效捕获全局语义信息的启发，我们提出了一个针对高分辨率遥感图像的语义分割框架，命名为Samba。

Samba利用编码器-解码器架构，其中Samba块作为编码器用于多级语义信息的有效提取，而UperNet作为解码器。

我们在LoveDA数据集上对Samba进行了评估，并将其性能与表现最佳的CNN和ViT方法进行了对比。结果显示，Samba在LoveDA上取得了杰出的表现。这表明，所提出的Samba框架是SSM在遥感图像语义分割中的有效应用，为这一特定应用中基于Mamba技术的设定了新的性能基准。

动机

遥感图像语义分割是遥感应用中的一项关键任务，深度学习方法被广泛采用。在这些方法中，常用的深度学习技术是卷积神经网络（CNN）。通过执行滑动覆盖图像数据的卷积操作，CNN能够有效地从图像的浅层到深层提取语义特征，成为许多图像处理任务的基石。

然而，如图1（a）所示，CNN中有限的感受野在处理高分辨率图像时呈现出挑战。

尽管存在缓解该问题的方案，但它们都有不可避免的缺陷。例如：

缩放图像能够适应网络的感受野，但通常会导致图像分辨率丢失，从而影响模型性能。
空洞卷积可以扩大感受野，但由于粗糙的特征子采样，可能导致特征信息损失。
另一种方法是通过残差连接多个CNN，将高级语义与低级信息融合，从而增强模型识别不同尺度的能力。然而，该方法显著增加了网络计算复杂度。

此外，ViT 是另一种语义分割广泛采用的深度学习技术。凭借其全局注意力机制，ViT克服了感受野的限制，能够灵活适应不同分辨率的输入，如图1（b）所示。

ViT 在传统图像任务中展现了卓越的性能，例如在ImageNet数据集中的分类任务。然而，在采用ViT进行遥感图像的语义分割时，仍然存在挑战。由于需要对每个图像块之间的自注意力进行计算，随着分辨率的增加，计算复杂度呈指数级增长。不仅如此，由于缺乏归纳偏置，ViT 需要大量的训练数据，但遥感领域的图像数据通常是稀缺的，同时对数据增强的要求也很高。

近期，名为Mamba的新方法被提出了，该方法利用状态空间模型（SSM）以低计算复杂度捕获全局语义信息。与Transformer不同，Mamba展示了线性复杂度，在处理长序列问题中体现了明显优势。在视觉任务中，探索将Mamba替换多头自注意力的效果是一个有趣的研究方向。

因此，受Mamba启发，我们提出了Samba，一个为遥感高分辨率图像设计的语义分割框架。Samba块被设计用于高效的图像特征提取。在该框架中，Mamba取代了ViT中的多头自注意力来捕获图像数据信息，并与多个多层感知器（MLP）结合，创建了一个Samba块。所提出的语义分割框架采用编码器-解码器架构，使用Samba块作为编码器和UperNet作为解码器，以有效提取多级语义信息。

我们的方法的表现性能使用LoveDA数据集进行了评估。与表现最佳的的CNN和ViT方法相比，在未加载预训练参数的情况下，Samba在LoveDA上展现了卓越的性能表现。这表明，Samba是状态空间模型在遥感图像语义分割中的有效应用，为该领域中基于Mamba的方法设立了新的基线。

本研究的主要贡献可以总结如下：

我们提出了Samba架构，首次将Mamba架构引入遥感图像的语义分割任务中。
我们进行了与表现最佳网络的对比实验，展示了Mamba架构作为遥感图像语义分割骨干网络的巨大潜力。
我们为基于Mamba的遥感图像分割建立了新的性能基准，并提供了见解以及提出了潜在的未来方向。

方法

图2展示了Samba的编码器架构：

该架构中，Samba块在四个阶段中对图像进行逐层的下采样。ViT编码器使用多头自注意力来捕捉不同表示子空间内的信息，随后通过残差连接和层归一化（LN）来缓解梯度消失问题。接着，采用一个前馈网络（FFN），由一个MLP和LN组成，以引入非线性变换并整合由多头自注意力精炼的复杂信息。

受到ViT编码器稳健的架构的启发，Samba块采用了类似的架构，多头自注意力被替换成了Mamba块。Mamba块被用于从高分辨率图像序列中提取特征，避免了在计算中的二次复杂性。我们的方法采用了Mamba块和MLP的结合，以增强模型的表示能力并加强其对复杂数据的学习能力。

Mamba的核心状态空间模型可以用演化参数A，投影参数B和C的线性常微分方程表示:

实验

LoveDA数据集被采用对我们提出的框架进行验证，该数据集包含具有0.3米空间分辨率的遥感图像。它包括2522幅训练图像、1669幅验证图像和1796幅测试图像，其中验证集用于性能评估。平均交并比（mIoU）被用来评估分割的准确性。

在这项研究中，Samba与几种表现最佳的方法进行了比较。包括CNN-based的方法，如ConvNeXt、ResNet、Deeplab V3+和PSPNet，以及ViT-based的方法，如Swin-T。为了确保公平比较，测试的方法都未加载预训练参数。这些方法的优化器和学习率策略设置遵循广泛采用的最佳配置。我们使用随机调整大小、随机裁剪、随机翻转和光度畸变来增广训练数据。具体的训练设置在表1中总结。所有实验均使用两块NVIDIA RTX 3090和两块4090D进行。

表2展现了实验结果， Samba在LoveDA数据集上取得了最佳性能，显著超过了CNN-based的方法，并略微超过了ViT-based的方法。

具体来说，当使用UperNet作为解码器时，Samba在mIoU指标上以2.24%的优势超越了性能最佳的ViT-based模型Swin-T，并以6.51%的优势超越了了性能最佳的CNN-based的模型ConvNeXt。当与UperNet解码器组合时，Samba在每个patch的flops和参数上都比Swin-T、ResNet50和ConvNeXt要低。

此外，如图3所示，我们将Samba在LoveDA数据集上实现的语义分割结果与对比模型的结果进行了可视化。这些可视化进一步展示了Samba在高分辨率遥感图像语义分割中的性能优势。

总结

本文介绍了Samba，一种基于Mamba的高分辨率遥感图像语义分割框架，标志着Mamba在该领域的首次应用。通过在LoveDA数据集上性能的评估，Samba超越了最先进的CNN-based和ViT-based的方法，设定了新的性能基准，并展示了Mamba架构在高分辨率遥感影像语义分割中的有效性和潜力。

#Champ

一张照片 + 一段视频，就能让照片活起来！人体视频生成新SOTA，5天斩获1k星，demo可玩

近日，由阿里、复旦大学、南京大学联合发布的可控人体视频生成工作 Champ 火爆全网。该模型仅开源 5 天 GitHub 即收获 1k 星，在 Twitter 更是「火出圈」，吸引了大量博主二创，浏览量总量达到 300K。

目前 Champ 已经开源推理代码与权重，用户可以直接从 Github 上下载使用。官方 Hugging Face 的 Demo 已经上线，封装的 Champ-ComfyUI 也正在同步推进中。GitHub 主页显示团队将会在近期开源训练代码及数据集，感兴趣的小伙伴可以持续关注项目动态。

项目主页：https://fudan-generative-vision.github.io/champ/
论文链接：https://arxiv.org/abs/2403.14781
Github 链接：https://github.com/fudan-generative-vision/champ
Hugging Face 链接：https://huggingface.co/fudan-generative-ai/champ

先来看下 Champ 在真实世界人像上的视频效果，以下图左上角的动作视频为输入，Champ 能让不同的人像「复制」相同的动作：

虽然 Champ 仅用真实的人体视频训练，但它在不同类型的图像上展现了强大的泛化能力：

黑白照片，油画，水彩画等效果拔群，在不同文生图模型生成的真实感图像，虚拟人物也不在话下：

技术概览

Champ 利用先进的人体网格恢复模型，从输入的人体视频中提取出对应的参数化三维人体网格模型 SMPL 序列（Skinned Multi-Person Linear Model），进一步从中渲染出对应的深度图，法线图，人体姿态与人体语义图，作为对应的运动控制条件去指导视频生成，将动作迁移到输入的参考人像上，能够显著地提升人体运动视频的质量，以及几何和外观一致性。

针对不同的运动条件，Champ 采用了一个多层运动融合模块（MLMF），利用自注意力机制充分融合不同条件之间的特性，实现更为精细化的运动控制。下图中展示了该模块不同条件的注意力可视化结果：深度图关注人物形态的几何轮廓信息，法线图指示了人体的朝向，语义图控制人体不同的部分的外观对应关系，而人体姿态骨架则仅关注于人脸与手部的关键点细节。

另一方面，Champ 发现并解决了人体视频生成中一直被忽略的体型迁移的问题。此前的工作或是基于人体骨骼模型，或是基于输入的视频得到的其他几何信息来驱动人像的运动，但这些方法都无法将运动与人体体型解耦，导致生成的结果无法与参考图像的人体体型匹配。

例如，给定一个大胖作为参考图像得到的如下图 7 所示的对比结果：

可以看到，Animate Anyone 与 MagicAnimate 的生成结果中，大胖的大肚子被抹平，甚至骨架也有一些缩水。而 Champ 利用 SMPL 中体型参数，来将其与驱动视频的 SMPL 序列进行参数化的体型对齐，从而在体型，动作上都取得了最佳的一致性（图中 with PST）。

实验结果

如下表 4 所示，与其他的 SOTA 工作相比，Champ 具有更好的运动控制以及更少的伪影：

同时，Champ 还展现了其优越的泛化性能与外观匹配上的稳定性：

在 TikTok Dance 数据集，Champ 评估了图像生成与视频生成的量化效果，它在多个评估指标上均有较大的提升，如下表 1 所示。

#PromptKD

PromptKD是一个简单有效的基于prompt的视觉语言模型蒸馏新方法，在prompt learning的11个benchmark数据集上大幅领先，达到了SOTA。

项目主页：https//zhengli97.github.io/PromptKD

arxiv地址：https//arxiv.org/abs/2403.02781

开源代码：https//github.com/zhengli97/PromptKD

Prompt Learning领域详细的paper list大家可以参考：

https//github.com/zhengli97/Awesome-Prompt-Learning-for-Vision-Language-Models

一句话概括：

PromptKD是一个简单有效的基于prompt的视觉语言模型蒸馏新方法，在prompt learning的11个benchmark数据集上大幅领先，达到了SOTA。

背景介绍

已经很了解VLMs和prompt learning的同学可以直接跳过，到背景问题～这里的介绍是为了让没有相关基础和背景的同学也可以看懂这篇工作。

什么是视觉-语言模型(Vision-Language Models, VLMs)？

视觉语言模型VLM一般由两个部分构成，即视觉(Vision)部分和语言(Language)部分。

以一个经典的VLM网络 CLIP[1] 的结构为例：

图1. CLIP架构。图片来自于CLIP论文。

如图1所示，CLIP由text branch和image branch组成。

其中， text branch主要由transformer构成，当要进行cls_num个类的分类任务时，会取每个类别对应的名称，如"plane", "car", "dog"，与"a photo of a"进行组合，作为prompt输入进text encoder，得到大小为[cls_num, feat_dim]的text feature。

image branch的核心就是对输入的图像提取image feature，其通常为ResNet或者ViT[2]。图像经过image encoder之后得到image feature，其大小为[batch_size, feat_dim]。

将两个feature进行相乘就得到了预测logits。

CLIP有两个明确的特性，是这个工作的基础：

CLIP可以进行zero-shot分类，即对未见过的类别进行识别，并保持很高的性能。而传统的CNN或者ViT由于模型架构限制不可以。
对于已知的类别，CLIP的text branch只需要一次forward就可以得到对应text feature用于分类。

什么是提示学习(Prompt Learning)？

在Text Branch部分中，a photo of a {class_name} 这样的描述太过宽泛，明显不是最优的。例如对于图2(b)的花，手工设计的a flower photo a {class}要描述的更加精确，其产生的结果就更好。

图2. 蓝色方块代表手动设计的prompt，绿色方块代表网络学习得到的learnable prompt。绿色方块acc超越了蓝色。图片来自于CoOp论文。

这就产生来两个问题，第一，固定模板的prompt不是最优的。第二，针对性的手工设计费时费力，且无法泛化。

于是，提示学习(Prompt Learning)[3] [4]就提出将prompt变成了一种learnable的方式，通过优化的方法让prompt在下游数据集上学习适用的表征，来替代手工设计的prompt，参考图2中的绿色方块。

这样优势是，可以在少量数据的情况下，仅通过引入一少部分的可学习参数（即learnable prompt），就可以将原始的CLIP快速适用到下游的任务/数据，同时在性能上比全参数微调的结果更好[4]。

实验衡量指标是什么？

有三个指标，分别是base acc，novel acc和harmonic mean。

以imagenet-1k数据集为例，会取1000类中的前500类作为base class，后500类作为novel class。模型在base class上训练，完成后在base class和novel class上测试acc性能。因为novel class与base class数据类别不重复，所以novel acc可以有效反应模型泛化性能。harmonic mean指标是对base acc和novel acc的综合反映，为harmonic mean = (2*base acc*novel acc) / (base acc+novel acc)。总体的harmonic mean值越高，模型综合性能越好。

背景问题

prompt learning的核心作用是，保持原始CLIP参数不变，通过引入小部分learnable prompt参数，来将大的原始的经过预训练的CLIP模型适用到下游任务/数据上，提升CLIP模型在下游任务的性能，同时保持CLIP模型zero-shot能力。

除去一直发展至今的各种设计prompt形式的工作[3] [5] [6] [7] [8] [9] [10] [11] [12] [13]，现如今最前沿的prompt learning方法主要还可以分为另外两类：

1. 引入额外数据/信息。这一类工作核心就是通过引入额外的数据或信息，做法包括但不限于，

(1) 通过LLM来生成{class_name}相关的语句，获得额外的有关{class_name}的特性特征[14] [15] [16]，或者更多描述性语句[17] [18] [19] [20]。

(2) 引入额外的数据源，从wikipedia上引入文本描述[21]，从额外数据集例如ImageNet-21K来做预训练 [22]。

(3) 设计给原始图像数据引入额外的tag或标注[23] [24] [25]。

从以上的方式我们看到，大部分引入额外数据信息的工作都是围绕text branch展开，本质原因是输入的text本身"{class_name}"或"a photo of a {classname}"包含信息太少，丰富度要远低于image，通过额外的域内文本信息的引入，可以显著增强text feature的质量。所以text feature的质量是关键。

同时，可以看到，围绕image branch的工作是相对较少的。这时候问题就来了：那我们可不可以用同样的思路来增强image feature呢？

诶，这个方法好！因为互联网内往往存在非常大量的图像数据，很容易获取。

但问题是这些图像往往是没有标注的，没办法用gt训，如果要去进行标注，需要消耗很多的时间或者钱。明显限制了这种方式的应用。

2. 利用原始CLIP自身信息约束模型学习[19] [26] [27] [28] [29] [30] [31]，防止过拟合。

在Prompt learning中，learnable prompt的参数量是相对较少的，在经过大量base class数据训练之后，模型会对base class数据存在过拟合，丧失对novel class的泛化性能。要解决这个问题，一种非常有效的做法就是利用vanilla CLIP来约束带有prompt的模型的学习。

以ICCV 23 PromptSRC为例，如图3所示，

图3. PromptSRC结构图。图片来自于PromptSRC论文。

图3这篇工作就看两条线，蓝线和灰线。

蓝线，就是原始CLIP的前向计算路径，分别会得到对应的image和text feature。

灰线，就是带有learnable prompt的计算过程，也会得到对应的feature。

在两条线的末尾，计算了三个loss，这里就是用原始CLIP产生的image和text feature来约束由含有learnable prompt产生的image和text feature。通过这样的约束，限制了prompt向着base class过拟合，达到了SOTA的性能。

由这个工作我们就想，如果换一个更好的模型来做约束是不是性能会更好？

于是，这就引出了我们的工作。

方法

PromptKD其实核心就在做一件事，引入更大的CLIP模型作为teacher，解决了上面提到的三个问题。

(1) 重用(Reuse) teacher CLIP产生的text feature用于学生的训练和推断。这样确保了text feature高质量的同时，还显著的节省计算量，训练时只涉及student的image encoder。

(2) 对齐学生CLIP和教师CLIP的logits。让大的CLIP模型给小的学生CLIP模型提供更好的监督。

(3) 因为有了教师CLIP的存在，就解决了数据量限制的问题，我们可以用大量的无标签domain data来训学生，不再拘泥于原来有限的有标签数据。在训练时，我们直接可以使用数据集的全量数据作为无标签数据进行蒸馏，这样一来就prompt就可以学到更广泛的domain knowledge。同时高性能的教师CLIP也保证了用于蒸馏的软标签的准确性。

我们先来看一个简单的结构缩略图：

图4. PromptKD框架简略图。

黄色的方块部分代表的就是教师CLIP，在教师CLIP经过训练之后，直接一次forward，得到并保存下来对应类别的text feaure，也就得到了图4中的Pre-stored Text Feature。

蓝色的方块代表的是学生CLIP，这里其实就只有一个image encoder，在带有learnable prompt的输入进image encoder之后会得到对应的image feature。这时因为student image feature与teacher text feature在维度上不匹配，所以需要经过一个Projector，将512转成768维的特征。然后再与Pre-stored Text Feature相乘，得到logits。

然后进行蒸馏。

完整的框架图如图5所示：

图5. PromptKD整体框架图。

图5里就是图4过程的细化。

这里将PromptKD的每个阶段都进行了详细的阐明。大家看图就明白了～

第一阶段，教师模型的预训练。在这里，我们选择之前的SOTA方法PromptSRC去预训练我们的教师ViT-L/14 CLIP模型，我们的学生模型是ViT-B/16 CLIP模型。

注意，这里的预训练不是必须的一步，选择去预训练教师模型，是为了让教师有一个更好的性能，从而有更好的学生蒸馏结果，（因为在纯kd场景下，teacher的acc决定了student的上限）。如果直接使用vanilla ViT-L/14 CLIP作为教师，相比于baseline，也是有明显效果的，具体结果请参考表4。

第二阶段，学生CLIP模型的蒸馏。

第三阶段，学生的推断。

最后再来一个简洁明了的流程概括图：

图6. 计算流程

实验结果

我们的PromptKD方法在prompt learning的11个benchmark dataset上都达到了SOTA的性能。

Base-to-novel实验

表1. Base-to-novel实验结果。

图7. HM分数在11个数据集上的总揽图。

Cross-dataset实验

表2. Cross-dataset实验结果。

消融实验

为了实验快速进行，消融实验里使用的不是全量数据集，而是64 shots per class进行的训练。所以会与表1中的数据相比略低。

与其他同样使用了无标签数据的工作的性能对比

表3. 在Flowers102数据集上与使用了无标签数据的其他方法的对比结果。

教师预训练方法的选择

在PromptKD中，任意类型的ViT-L/14 CLIP教师模型都可以蒸馏出一个很好的ViT-B/16 CLIP模型，相比于baseline (70.22 HM)都有明显的提升。

这里有一点非常有意思的是，我们可以看到，第四行的Teacher(CLIP) ViT-L/14也就是原始的CLIP模型，在经过PromptKD的蒸馏之后，我们的ViT-B/16 CLIP的结果（表1(b)）明显超过了原始的ViT-L/14 CLIP模型。(77.62 vs. 76.52)

表4. 不同教师预训练方法对PromptKD蒸馏效果的影响。

不同容量教师模型的选择

如表5所示，绿色代表学生ViT-B/16 CLIP的HM分数，土黄色代表教师的HM分数。教师的性能越高，越能训练出更好的学生。

图8. 不同容量的CLIP模型作为教师进行蒸馏。

欢迎大家试用PrompKD～

Acknowledgement

这篇论文解读感谢师弟武戈同学的部分论文总结，PromptKD这篇工作也非常感谢蚂蚁的申书恒，张长浩和傅幸同学的讨论和帮助。

问题解答

问：想要找一个更小backbone的CLIP做蒸馏，只有ResNet-based CLIP了，但是resnet-based CLIP不支持token形式的learnable prompt，怎么办？

答：两种方式，第一种，学生模型在这里不是必须要有prompt的，当变成resnet或者更小的模型时，也可以考虑去全参数微调去拟合下游任务。第二种，当不支持token形式的prompt时，VPT论文其实给出了方案，就是在spatial的层面去加prompt，另外还可以参考MIT的工作《Exploring Visual Prompts for Adapting Large-Scale Models》，这篇论文的图里给出了很具体的可以应用的visual prompt实现方法，代码 (https//github.com/hjbahng/visual_prompting) 也已经开源了，可以参考去使用。

2. 问：Teacher CLIP如果没有prompt，不做pretrain可不可以？

答：是可以的。其实PromptKD这里的teacher不用局限在到底有没有经过pretrain这个事情上，我们在论文的table 6里也验证了，即使是最原始的ViT-L/14 CLIP用来做蒸馏，也可以取得明显的提升效果。因为promptkd本身是一种纯kd的训练方法，所以teacher的acc其实决定了student学习效果的上限，我们对teacher去进行pre-train，就是在提升这个上限，所以是上限越高蒸馏结果越好。但是如果不做pre-train，也不影响promptkd方法的使用。

3. 问：PromptKD和PromptSRC对硬件的需求。

答：我的实验是在A100的卡上完成的，所以没有特别在意这个，可能记得不太清楚具体细节了，PromptSRC对于卡的需要还是比较高的，最好是24g的卡，promptkd很省显存，我印象里之前跑某个实验时大概7-8G显存，用11g的1080ti应该就可以跑起来。

4. 问：蒸馏阶段的数据如果有真实标签怎么办？

答：在本文中，PromptKD受限于论文实验验证标准，使用的是无标签数据进行的蒸馏。而在现实中，如果训练数据包含有gt label，则可以考虑在学生的训练时直接使用gt label，即将图6里算loss这一行只有kd loss的情况换成loss = a* CE(l_stu, gt)+ b * KLD(l_stu, l_tea)进行训练，其中a，b为两项loss的超参，ce为朝着gt优化的cross entropy loss，在训练时可以先固定a=1不动，调整b来进行蒸馏实验，直到发现最优参数

#Open-Sora-Plan

北大团队联合兔展发起的 Sora 复现计划，现在有了新成果。

OpenAI 在今年年初扔出一项重大研究，Sora 将视频生成带入一个新的高度，很多人表示，现在的 OpenAI 一出手就是王炸。然而，众多周知的是，OpenAI 一向并不 Open，关于 Sora 的更多细节我们无从得知。谁能率先发布类 Sora 研究成了一个热门话题。

今年 3 月初，北大团队联合兔展启动了 Sora 复现计划 ——Open Sora Plan，该项目希望通过开源社区的力量复现 Sora。

项目上线一个月，星标量已经达到 6.6k。

项目地址：https://github.com/PKU-YuanGroup/Open-Sora-Plan
技术报告：https://github.com/PKU-YuanGroup/Open-Sora-Plan/blob/main/docs/Report-v1.0.0.md

现在这个项目终于有了新成果，Open-Sora-Plan v1.0.0 来了，新研究显著增强了视频生成的质量以及对文本的控制能力。研究者表示，他们正在训练更高分辨率（>1024）以及更长时间（>10s）的视频。目前该项目已支持国产 AI 芯片（华为昇腾 910b）进行推理，下一步将支持国产算力训练。

项目作者林彬表示：Open-Sora-Plan v1.0.0 可以生成1024×1024分辨率视频，也能生成10 秒、24 FPS 的高清视频。而且它还能够生成高分辨率图像。

下面我们看一下 v1.0.0 的效果（为了展示，动图进行了一些压缩，会损失一些质量）。

文本到视频生成

提示：海上的日落。

哈哈没有原视频

提示：黎明时分，宁静的海滩，海浪轻轻拍打着海岸，天空被涂上柔和的色调......

提示：沿海景观从日出到黄昏过渡的延时拍摄……

文本到视频生成的更多效果展示：

文本到图像生成（512×512 ）

视频重建（720×1280）

图像重建（1536×1024）：

在实现细节方面，通过团队放出的技术报告，我们得知模型架构 CausalVideoVAE 概览图如下所示：

CausalVideoVAE 架构继承自 Stable-Diffusion Image VAE。为了保证 Image VAE 的预训练权重能够无缝应用到 Video VAE 中，模型结构设计如下：

CausalConv3D：将 Conv2D 转换为 CausalConv3D，可以实现图像和视频数据的联合训练。CausalConv3D 对第一帧进行特殊处理，因为它无法访问后续帧。

初始化：Conv2D 扩展到 Conv3D 常用的方法有两种：平均初始化和中心初始化。但本文采用了特定的初始化方法 tail 初始化。这种初始化方法确保模型无需任何训练就能够直接重建图像，甚至视频。

训练细节：

上图展示了 17×256×256 下两种不同初始化方法的损失曲线。黄色曲线代表使用 tail init 损失，而蓝色曲线对应中心初始化损失。如图所示，tail 初始化在损失曲线上表现出更好的性能。此外，该研究发现中心初始化会导致错误累积，导致在长时间内崩溃。

训练扩散模型。与之前的工作类似，该研究采用了多阶段级联训练方法，总共消耗了 2048 A800 GPU 小时。研究发现，图像联合训练显着加速了模型收敛并增强了视觉感知，这与 Latte 的研究结果一致。

不过，目前发布的 CausalVideoVAE（v1.0.0）有两个主要缺点：运动模糊和网格效果。团队正在改进这些缺点，后续版本很快就会上线。

#EgoExoLearn

在探索人工智能边界时，我们时常惊叹于人类孩童的学习能力 —— 可以轻易地将他人的动作映射到自己的视角，进而模仿并创新。当我们追求更高阶的人工智能的时候，无非是希望赋予机器这种与生俱来的天赋。

由上海人工智能实验室，南京大学，中科院深圳先进技术研究院牵头，联合东京大学，复旦大学，浙江大学，中国科学技术大学等高校的学生和研究者，共同公布了跨视角技能学习数据集EgoExoLearn，为机器人赋予了通过观察他人学习新动作的能力。

论文链接：https://arxiv.org/abs/2403.16182
代码与数据集链接：https://github.com/OpenGVLab/EgoExoLearn

EgoExoLearn 数据集独辟蹊径，采集了第一视角与第三视角的视频素材。第一视角视频捕捉了人们学习第三视角演示动作的全过程，这种视角的转换与融合，为机器模拟人类学习模式提供了宝贵的数据资源。

数据集的构建不仅涵盖了日常生活的琐碎场景，更延伸到了专业实验室的复杂操作。EgoExoLearn 精心收录了总计 120 小时的视角与示范视频，旨在让机器在多种环境下都能有效学习。

除视频外，研究者还记录了高质量的注视数据，并辅以详尽的多模态标注。这些数据与标注的结合，构建了一个全面模拟人类学习过程的平台，有助于解决机器在不同视角下对异步动作过程的建模难题。

为了全面评估 EgoExoLearn 数据集的价值，研究者提出了一系列基准测试，如跨视角关联、跨视角行动规划及跨视角参考技能评估等，并进行了深入的分析。展望未来，EgoExoLearn 将成为跨视角行动桥接的重要基石，为机器人无缝学习真实世界中的人类行为提供坚实支撑。

期待 EgoExoLearn 数据集能助力 AI 技术的进一步突破，推动机器人从单纯的模仿走向真正的智能，实现与人类社会的和谐共存与共同发展。

研究背景

从孩童时期开始，人类就具备观察他人行为并将其映射到自己视角的能力，这种能力在进行高试错成本的实际操作（如危险化学实验）时尤为有益。随着人工智能系统的最新进展，下一代 AI 智能体将会在更通用的场景中执行任务。

然而，与人类不同，训练这些 AI 智能体通常需要在类似环境中拍摄的演示视频作为训练数据，这些视频的视角还必须与 AI 智能体一致（例如，第一视角）。尽管有很多工作尝试了在不同场景中收集此类数据，对于 AI 智能体来说，直接从不同地点和不同视角拍摄的演示视频中学习仍然至关重要。实现这一能力可以充分利用大规模公开教学视频数据的潜力，并且在人机合作场景中尤其是在新环境中有巨大作用。

目前朝这个目标努力的工作大致可以分为两个方向。一种是在模拟环境中学习模型，但这些模型在现实世界中的泛化仍然很困难。另一个方向是从现实世界中的人类活动中学习。然而，直接结合现有的多视角数据集的尝试通常会产生质量或规模较差的数据集。同时，目前这个方向的少数现有数据集只记录了在同一环境和时间同步方式下拍摄的自我中心和外部中心视角视频。在现实中，跟随演示时，通常需要桥接在不同地点和不同时间执行的一系列程序性动作。目前还没有可用于探索如何在现实的自我中心和外部中心视角中桥接异步程序性活动的数据集。

为了解决数据集缺乏问题，研究者提出了 EgoExoLearn，这是一个大规模数据集，包含演示视频和相应的第一视角跟做视频。其中摄像机佩戴者跟随演示视频中的动作，并在不同环境中执行相同任务。针对日常生活辅助和专业技能辅助这两个潜在应用，EgoExoLearn 包含了 747 个视频序列，总时长达 120 小时，涵盖场景包括日常食物制作和专业实验室实验。值得注意的是，EgoExoLearn 中的第一视角视频包含了显示人类执行任务时视觉注意力的眼动信号。这为更好地连接第一视角和第三视角中的行动提供了宝贵的线索。

更进一步，研究者分析了人类的跨视角理解能力，并相应地引入了新的任务和基准，希望这些可以对开发具有类似能力的下一代具身 AI 智能体起到重要帮助。当人类执行一个动作时，他 / 她可以将自我中心视角中正在进行的动作与演示中相应的动作联系起来并进行描述。通过演示视频中的知识，人类可以知道所需的动作步骤，并预测下一步应该是什么。此外，通过与演示的比较，人类还可以评估自己的技能水平。

基于上述分析，研究者设计了以下新任务：1) 跨视角关联，2) 跨视角动作理解，3) 跨视角参考技能评估，以及 4) 跨视角参考视频字幕。每个基准都经过精心定义、标注，并具体实现了相应模型。此外，研究者还首次探索了眼动在这些任务中的作用。研究者希望这个数据集能够为未来链接不同视角中的异步程序性动作的工作提供资源，从而激发设计擅长从现实世界人类演示中学习并将程序性动作映射到机器人中心视角的 AI 智能体。

数据集介绍

场景和任务

研究者考虑了程序性的目标导向任务，这些任务涵盖了从日常的食物制作到专业的实验室实验。这种选择基于它们所体现的两个未来体现性 AI 代理需要能够桥接自我 - 外部活动的潜在领域：日常生活辅助和专业支持。

具体来说，EgoExoLearn 包含了 5 种日常任务（例如烹饪）和 3 种专业实验室任务（例如固相肽合成）。研究者在 4 个不同的厨房和 3 个不同的实验室中录制了自我中心视角的视频。下表显示了每个任务的视频数量以及平均视频长度。

数据收集流程

在每次收集开始之前，参与者需要完成一份问卷，收集基本的人口统计信息以及他们自我评估的执行指定任务的专长。然后在每次录制中，参与者将被要求从提供的列表中选择一个或几个外部中心视角的演示视频，并仔细学习详细的程序。一旦准备好了，他们将戴上 Pupil Invisible Glasses，完成眼动校准，并开始复制演示视频中执行的任务。虽然不鼓励，但参与者在录制过程中被允许重新观看演示视频。在每次录制之后，参与者被要求重新进行眼动校准，以确保眼动数据的准确性。对于 5 个日常任务，外部中心演示视频是手动从 YouTube 等在线视频平台策划的。对于实验室实验，外部中心演示视频是由资深实验室成员录制的教程。

数据集标注与统计

为了促进本文数据集在开发能够有效弥合自我和外部视角之间差距的算法方面，研究者提供了详细的多模态人类标注。粗略级别的语言标注、细致级别的语言标注、翻译与解析、技能水平标注。据了解，目前还没有与本文设置相同、可以直接比较的数据集。因此，研究者在下表中列举了本文数据集的各个方面，并与相关数据集进行了比较分析。EgoExoLearn 以其「视觉演示跟随」设置独特地丰富了该领域。除了这一独特设置之外，它还是第一个包括时间限定的语言字幕、标注的跨视角关联和多标签视频片段的自我中心数据集。同其他第一视角视频数据集的对比如下：

新基准 Benchmarks

为了评估连接异步的第一视角 - 第三视角程序性动作的能力，研究者引入了 4 个新的基准 benchmark，如下图所示：

1) 跨视角关联 (cross-view association)，探究模型有没有将不同视角的相同动作联系起来的能力，分为 Ego2Exo 和 Exo2Ego 两个设定。在（ego2exo）的情况下，给定一个自我中心视频，模型需要从一组候选的外部中心样本中预测出执行相同动作的相应外部中心视频。这里考验了模型对单一视角动作的理解能力，还考验了模型在跨视角情境下的泛化能力和预测准确性。基线模型与结果如下：

2) 跨视角动作理解 (cross-view action understanding)，细分为三个子任务：跨视角动作预测、跨视角动作规划和跨视角动作分割。此外，研究者还探索了注视点（gaze）在协助这些任务中的作用。下图是四种训练设定与基线模型性能：

3) 跨视角参考技能评估 (cross-view referenced skill assessment) 主要目标是评估第一视角操作者的技能水准。研究者引入了第三视角的专家操作视频作为参考，通过与参考视频的对比，技能评估可以变得更加准确。基线模型与结果如下图所示：

4) 跨视角参考视频描述 (cross-view referenced captioning)。使用另一个视角的视频作为参考，此项任务旨在提高模型利用跨视角参考而更好的进行视频描述的能力。模型设计和基线性能如下：

结论

对于下一代具身智能在现实世界中执行复杂任务而言，能够连接第一和第三视角中的异步程序性动作的能力是必不可少的。作为一个基础步骤，EgoExoLearn 包含了丰富的第一视角视频，其中每个视频都是在跟随第三视角演示视频的程序时拍摄的。这种现实的设置，结合多模态人工高质量标注，能够构建 4 个新颖的基准测试。而这些基准作为一个多功能的平台，可以被用于研究如何桥接跨视角的异步活动。EgoExoLearn 还可以促进新的研究方向，例如如何更好地利用注视和与手相关的标注。基准测试的结果表明，当前模型在连接第一和第三视角的异步活动方面尚有不足，未来还有显著的改进空间。

#RS-Mamba

作者首次将SSM引入超高分辨率遥感任务以实现全局感受野和线性复杂度，提出了Remote Sensing Mamba（RSM）来处理超分辨率遥感图像。同时，作者提出了Omnidirectional selective scan module（OSSM），来提取超高分辨率遥感图像中具有大空间尺度和多个方向的空间特征。

Mamba在大语言模型大放异彩，以其线性复杂度和媲美transformer的表现，被认为是transformer的有力替代。近期工作Vim和VMamba将Mamba引入到视觉图像领域，引爆了视觉领域的众多领域，涌现出大量使用Mamba进行视觉任务的研究。

RS-Mamba首次将Mamba引入到遥感进行超高分辨率遥感图像的密集预测任务，利用它的线性复杂度和全局建模能力来处理大遥感图像。

之前的遥感模型主要可以分为基于CNN和基于transformer。基于CNN的模型由于局部卷积操作，无法对遥感图像进行全局建模，基于transformer的模型由于二次方复杂度无法处理大的超高分辨率遥感图像，将大的图像裁剪为小的图像块会损失大量的上下文信息。

近期的工作Vim和VMamba虽然将Mamba引入了视觉图像领域，但是它们只在图像的横向或者纵向进行选择性扫描，适合主要空间特征分布在横向或者纵向的自然图像，但是不适合空间特征分布在任意方向的遥感图像。

针对上述问题，RS-Mamba创新性的提出了全向选择性扫描模块，在多个方向对遥感图像进行选择性扫描，从而能够提取出多个方向的大尺度空间特征。同时由于RS-Mamba只具有线性复杂度，它能够处理基于transformer模型无法处理的大遥感图像，并具有全局建模能力。在多种地物的语义分割和变化检测任务上的实验表明，使用简单的模型架构和训练方式，RS-Mamba就能够达到SOTA。

Paper：RS-Mamba for Large Remote Sensing Image Dense Prediction
Code: https://github.com/walking-shadow/Official_Remote_Sensing_Mamba
Arxiv: https://arxiv.org/abs/2404.02668

代码已开源，觉得有帮助的话希望能在github给个star。

欢迎在本文的基础上继续探究基于SSM的方法在遥感密集预测任务中的潜力，RSM目前所使用的都是最简单的架构，还有很大的潜力可以挖掘。

Mamba在各个领域的火热之风很快就会吹到遥感领域，它在遥感领域的潜力想必也会迎来新一轮的研究热潮。

引言

近年来，遥感图像的空间分辨率正在变得越来越高，超高分辨率遥感图像也广泛应用在大量的遥感领域中。

超高分辨率遥感图像具有多个方向的大空间尺度的空间特征，它们对于语义分割、变化检测等密集预测任务来说都至关重要。

在超高分辨率遥感图像中，由于图像的空间分辨率非常高，一方面，单个物体内部存在形状、边缘等的丰富的空间特征，多个物体之间也存在空间排列等丰富的空间特征，这些空间特征往往具有很大的空间尺度；另一方面，由于遥感图像是相机向下俯拍得到的，水平方向上相机可以以任意角度获取遥感图像，这表明遥感图像的空间特征可以存在于任意方向。

因此，能够对超高分辨率遥感图像进行全局建模，提取多个方向的大尺度空间特征，对于超高分辨率遥感中的密集预测任务来说至关重要。

近年来，基于transformer的深度学习模型被广泛应用于超高分辨率遥感任务中。由于transformer能够通过自注意力捕获超高分辨率遥感图像的全局空间信息，并对它们的空间依赖进行良好建模，基于transformer的模型取得了很不错的效果。

然而，由于transformer具有二次方复杂度，在训练和推理基于transformer的模型时，只能将大的超高分辨率遥感图像，裁剪成较小的遥感图像块，然后再送入到基于transformer的模型中进行计算。由于超高分辨率遥感图像的物体存在很大的空间跨度，裁剪后的遥感图像块往往只包含单个物体的一部分，只具有更少的上下文信息，丢失了单个物体内部的空间特征和多个物体之间的空间依赖信息，不利于处理超高分辨率遥感任务，如下图所示。

把大遥感图像裁剪为小的图像块。小图像块包含的上下文信息非常有限，丢失了很多重要的空间特征

最近的工作Vim和VMamba使用SSM实现了线性复杂度和全局感受野，在自然图像上完成图像分类、图像分割等任务。

为了处理图像数据无方向性的特点，Vim在图像的横向方向上使用SSM进行前向和后向选择性扫描，VMamba在横向和纵向方向上使用SSM进行前向和后向选择性扫描，从而使得图像中的每个部分都能和其他部分建立联系。

VMamba中的有效感受野可视化结果表明，它具有全局的有效感受野，并且在横向和纵向方向上具有更强的有效感受野，这表明SSM的选择性扫描方向能够显著影响图像在特定方向的有效感受野。

然而，Vim和VMamba不适用于超高分辨率遥感图像。自然图像的空间特征要符合一定的物理规律，图像中的物体往往是横平竖直的，因此自然图像不能随意旋转，它的主要空间特征分布在横向和纵向两个方向。

遥感图像由于是卫星向下俯视拍摄获取的，因此遥感图像可以任意旋转，它的主要空间特征可以分布在任意方向。由于超高分辨率遥感图像中的物体具有大的空间尺度，单个物体的空间特征和多个物体之间的空间依赖都存在多种多样的方向，因此超高分辨率遥感图像存在多个方向的大尺度空间特征。

由于SSM的选择性扫描方向能够显著影响图像在特定方向上的有效感受野，Vim只在横向上选择性扫描图像，VMamba只在横向和纵向上选择性扫描图像，虽然它们在主要空间特征在横向和纵向的自然图像上能够取得不错的效果，但是它们都无法处理超高分辨率遥感图像中具有多个方向的大尺度空间特征

为了解决上述问题，我们首次将SSM引入超高分辨率遥感任务以实现全局感受野和线性复杂度，提出了Remote Sensing Mamba（RSM）来处理超分辨率遥感图像。

RSM不包含任何自注意力操作，但是具有全局感受野，能够对超高分辨率遥感图像的上下文进行有效建模。由于RSM具有线性复杂度，它能够处理包含了多个物体的大尺度的超高分辨率遥感图像，不会丢失单个物体的空间特征信息和多个物体之间的空间依赖信息，因此可以很好的处理超高分辨率遥感图像。

同时，我们提出了Omnidirectional selective scan module（OSSM），来提取超高分辨率遥感图像中具有大空间尺度和多个方向的空间特征。OSSM同时在横向、纵向、斜向和反斜向使用SSM对遥感图像进行前向和后向选择性扫描，从而能够增强遥感图像在多个方向上的全局有效感受野，在多个方向上提取全局的空间特征。

总的来说，我们的贡献如下：

1）我们提出了Remote Sensing Mamba来处理超高分辨率遥感任务。RSM首次使用SSM来处理超高分辨率遥感图像，它能够处理包含整个物体的超高分辨率遥感图像，并建立起遥感图像的全局联系。

2）我们设计了一个Omnidirectional selective scan module提取超高分辨率遥感图像中具有大空间尺度和多个方向的空间特征。OSSM通过在多个方向上使用SSM对遥感图像进行选择性扫描，能够增强遥感图像在多个方向上的全局联系。

3）我们证明了RSM在超高分辨率遥感任务中的高效性和优越性。在语义分割数据集WHU-SS和变化检测数据集LEVIR-CD，和WHU-CD上的实验表明，RSM在使用简单的模型架构和训练方法的情况下，在语义分割和变化检测任务上均能够达到SOTA。

方法

RSM在语义分割和变化检测任务上的对应模型分别为RSM-SS和RSM-CD。RSM-SS使用简单的U-Net架构，RSM-CD使用简单的孪生网络架构，它们都是遥感密集预测任务中非常常用和简单的架构，不包含任何花哨的模块。

RSM-SS和RSM-CD的encoder都由若干全向状态空间块（Omnidirectional state space block, OSS）构成，OSS的内部结构为类Mamba结构，具有线性复杂度和全局建模能力。而其中的OSSM（Omnidirectional selective scan module）在八个方向上对图像进行选择性扫描，从而能够提取多个方向的大尺度空间特征。

RSM-SS和RSM-CD的总体结构

RSM-SS和RSM-CD的创新之处在于OSSM模块，OSSM的扫描方向能够更好的适应遥感图像的空间特征分布在任意方向的特点。

Vim, VMamba和OSSM的选择性扫描方向如下图所示，Vim的选择性扫描方向是图像的横向，即从左到右扫描和从右到左扫描；VMamba的选择性扫描方向是图像的横向和纵向，即从左到右和从右到左，加上从上到下和从下到上扫描。

Vim和VMamba的这种扫描方式能够有效的处理主要空间特征在横向和纵向的自然图像，但是无法处理空间特征分布在任意方向的遥感图像。因此，OSSM在横向和纵向的扫描基础上，增加了斜向和反斜向的扫描，从而能够在斜向和反斜向方向对遥感图像进行全局建模，提取多个方向的空间特征。

Vim, VMamba和OSSM的选择性扫描方向

OSSM的具体结构如下。输入的tokens在横向、纵向、斜向、反斜向和它们的反向方向展平成8个图像token序列，并独立的输入到SSM块中进行选择性扫描，所有方向的扫描结果最后加在一起，得到输出的tokens。输出tokens因为汇总了在8个方向上进行选择性扫描的特征，能够在多个方向上对遥感图像进行全局性建模，从而能够提取多个方向的大尺度空间特征。

OSSM的整体结构

实验结果

在语义分割任务上的Massachusetts Roads数据集和变化检测的WHU-CD数据集上的消融实验表明，与Vim的SS1D和VMamba的SS2D相比，进行8个方向扫描的OSSM均能取得更好的效果。

OSSM消融实验

在语义分割任务上，我们在Massachusetts Roads数据集和WHU数据集上进行了实验，结果表明RSM-SS相较于CNN-based方法和transformer-based方法，均能取得最好的效果，在道路和建筑物语义分割上均能取得SOTA效果。

RSM-SS在Massachusetts Roads数据集的对比实验

RSM-SS在WHU数据集的对比实验

在变化检测任务上，我们在WHU-CD数据集和LEVIR-CD数据集上进行了实验，结果表明RSM-CD相较于CNN-based方法和transformer-based方法，也均能取得最好的效果，在建筑物变化检测上取得了SOTA效果。

RSM-CD在WHU-CD数据集的对比实验

SM-CD在LEVIR-CD数据集的对比实验

#PortraitMode-400

短视频在当下社交媒体逐渐成为主导的视频格式。传统视频处理技术和研究一般都专注于横屏视频的理解和解析，而竖屏视频因其拍摄手法和内容重点不同，展示出与横屏视频数据不同的特性。

针对这一不同，字节跳动技术团队发布了专注于竖屏视频理解的数据集，提出了多个针对竖屏视频处理的技术点以及一个初始方案。这项研究对准确的竖屏视频理解和基础技术架构有较为重要的意义，论文已入选 CVPR2024。

视频 demo 展示、数据特性演示以及竖屏视频类别分类，请见 https://mingfei.info/PMV

论文地址：https://arxiv.org/abs/2312.13746

视频分类作为基础的计算机视觉技术，对视频内容的分类、特征提取，以及推荐等有着重要的作用。竖屏视频是目前社交媒体平台上主导的短视频格式，受到用户的广泛青睐。而竖屏的视频分类技术在目前的研究中鲜有关注，为了激发这一领域的研究，团队提出了一个专用的数据集 PortraitMode-400，包含真实的视频数据和 400 个结构化的类别标签。

进一步，通过自建数据和公开数据子集实验，团队初步展示了横屏数据和竖屏数据之间的不同，和独特的先验分布，并针对不同的技术点进行实验，提出了针对竖屏视频处理的技术方案。

团队首先从公开数据 Kinetics-700 中抽取包含竖屏视频数量的子集 S100-PM，并对应的抽取同等数量的横屏视频得到 S100-LM。团队分别在 S100-PM 和 S100-LM 上训练两个相同的模型（不含任何预训练），并在相同的测试集上进行公平测试，以观察竖屏和横屏视频所含的不同数据特性。

如下方所示，以上半为例，团队将 S100-PM 训练的模型在竖屏测试集上做滑窗测试（16x9 个不重叠的均匀分布的滑窗）得到 Probing-P，同样的可以得到 S100-LM 训练模型的测试结果 Probing-L。为了观察 S100-PM 模型对 S100-LM 模型的优势，团队做差值图得到 c 图，黄色框 1 表示此位置竖屏训练的模型以大于 9 个点的差值显著优于横屏训练的模型。同样的，团队可以得到下半所示的差值图，S100-LM 训练模型在横屏中下区域的准确率低于 S100-PM 训练模型。

可以观察得到，在确保所有训练和测试条件一致的情况下，训练数据的不同带来准确率空间分布上的显著差异，而且差值呈哑铃状分布。

横屏与竖屏视频的不同，说明竖屏视频是一种不同于以往数据的新视频格式，有着不同的数据特性。为了进一步推动领域研究，团队提出了数据集 PortraitMode-400，通过自底向上的方式综合大量的热门搜索词，人工筛查和提取得到 400 个包含显著动作内容的类别集合，涵盖从饮食运动到休闲娱乐等等领域。每个类别包含至少 100 个公开的竖屏视频链接，并已通过人工审查的方式确保数据的高质量可用。

此外，团队还真对竖屏视频数据的不同特性进行实验，以期提出一套合理有效的技术方案。为此，团队利用不同的模型类别，如 CNN（X3D）、Transformer（MViT v2）、Hyrid-Transformer（Uniformer）在竖屏数据上进行广泛实验。团队发现，与传统横屏数据处理相比，竖屏数据对数据预处理有着不一样的倾向。

如下图上半所示，在 CNN 模型下倾向于 Inception-style 方案，而在 Transformer 类模型下倾向于 shorter-side resize 方案。进一步的，团队发现更好的保持原始视频在训练时的长宽比，可以在同等测试条件下获得更好的准确率。

如下半所示，随着采样框长宽比增大，Transformer 类模型表现逐渐增强，而 CNN 模型表现相反。这些实验现象表明了，竖屏数据不同于横屏数据的特性；提供了不同模型架构下的训练偏好设置。