CVPR2024自适应相关Adaptation论文相关33篇速览

最新推荐文章于 2025-03-26 15:53:47 发布

木木阳

最新推荐文章于 2025-03-26 15:53:47 发布

阅读量2.2k

点赞数 10

文章标签： CVPR 自适应 Adapt 论文速览

本文链接：https://blog.csdn.net/weixin_44287798/article/details/139679617

版权

Paper1 Genuine Knowledge from Practice: Diffusion Test-Time Adaptation for Video Adverse Weather Removal

摘要小结: 这段话的中文翻译如下：

现实世界的视觉任务经常受到意外不良天气条件的影响，包括雨、雾、雪和雨滴。在过去的十年里，卷积神经网络和视觉变换器在单一天气视频去除方面取得了卓越的成绩。然而，由于缺乏适当的适应，它们大多数无法推广到其他天气条件。尽管ViWS-Net提出使用一组预训练权重来去除视频中的不良天气条件，但它严重受到训练时见过天气的影响，当遇到测试时未见过的天气时，性能会下降。在这项工作中，我们将测试时适应引入到视频中的不良天气去除，并提出了第一个将测试时适应集成到迭代扩散反向过程的框架。具体来说，我们设计了一个基于扩散的网络，带有一个新颖的时间噪声模型，以在训练阶段有效地探索降质视频片段中的帧相关信息。在推理阶段，我们引入了一个名为“扩散管状自我校准”的代理任务，以学习测试视频流的底漆分布，并通过近似时间噪声模型进行在线适应来优化模型。基准数据集上的实验结果表明，我们的基于扩散网络的测试时适应方法（Diff-TTA）在恢复受见过天气条件影响的视频方面优于现有技术。

主要内容概述：

这段话主要讨论了现实世界视觉任务中，不良天气条件对视频质量的影响，以及目前技术的局限性。作者提出了一种新的方法，即Test-Time Adaptation方法，将测试时适应集成到迭代扩散反向过程中。该方法通过设计基于扩散的网络和引入新的代理任务，提高了模型在处理未见过天气条件时的性能。实验结果显示，该方法在恢复视频质量方面优于现有技术。

Paper2 Boosting Image Quality Assessment through Efficient Transformer Adaptation with Local Feature Enhancement

摘要小结: 图像质量评估（IQA）是计算机视觉领域的一项基本任务，但至今仍是一项未解决的挑战，原因在于图像内容的复杂失真条件和有限的数据可用性。最近，社区出现了许多大规模预训练的基础模型。然而，是否高端任务的规模法则也适用于与低级线索密切相关的IQA任务，这仍是一个开放性问题。在这篇文章中，我们展示了通过适当注入局部失真特征，更大的预训练视觉变压器（ViT）基础模型在IQA任务上表现更佳。

以下是主要内容概述：

翻译：
图像质量评估（IQA）是计算机视觉领域的一项基本任务，但至今仍是一项未解决的挑战，这归因于复杂的失真条件、多样的图像内容以及数据的有限可用性。最近，社区看到了许多大规模预训练的基础模型的涌现。然而，高端任务中的规模法则是否也适用于与低级线索密切相关的IQA任务，这仍然是一个未解决的问题。在本文中，我们证明了通过适当注入局部失真特征，更大的预训练视觉变压器（ViT）基础模型在IQA任务上表现更好。

概述：
以下是关键点：

IQA是计算机视觉的基本任务，但面临挑战。
大规模预训练模型出现了，但其在IQA任务上的应用未知。
文章展示了使用更大的ViT模型，通过注入局部失真特征，可以改善IQA任务。
具体来说，作者使用预训练的卷积神经网络（CNNs）来提取多尺度图像特征，并提出了局部失真特征提取器和注入器。
通过仅训练提取器和注入器，方法在IQA数据集上达到了最先进的表现。

代码可用性：
代码公开可用，位于：https://github.com/NeosXu/LoDa.

这意味着，IQA不仅仅是低级问题，也能从大规模预训练模型中提取的更强高级特征中受益。

Paper3 Unified Entropy Optimization for Open-Set Test-Time Adaptation

摘要小结: 这段话的中文翻译如下：

测试时自适应（TTA）旨在将预先在标记源域上训练的模型适应到未标记的目标域。现有方法通常关注于在协变量偏移下提高TTA性能，而忽视了语义偏移。在本文中，我们深入研究了一个现实的开放集TTA设置，其中目标域可能包含来自未知类的样本。许多最先进的闭集TTA方法在应用于开放集场景时表现不佳，这可以归因于数据分布和模型置信度的不准确估计。为了解决这些问题，我们提出了一种简单而有效的框架，称为统一熵优化（UniEnt），它能够同时适应协变量偏移的分布内数据（csID）和检测协变量偏移的分布外数据（csOOD）。具体来说，UniEnt首先从测试数据中挖掘伪-csID和伪-csOOD样本，然后对伪-csID数据进行熵最小化，对伪-csOOD数据进行熵最大化。此外，我们引入了UniEnt+来减轻硬数据分区引起的噪声，利用样本级置信度。

主要内容概述：

这段话主要讨论了测试时自适应（TTA）的问题，特别是针对开放集场景下，目标域可能包含未知类别的情况。现有方法在处理协变量偏移方面做得好，但忽视了语义偏移。文中提出了统一熵优化（UniEnt）框架，能够同时处理协变量偏移的分布内数据和检测分布外数据。UniEnt通过特定的熵最小化和最大化方法来处理样本，并且还引入了UniEnt+来进一步减轻数据分区噪声。实验结果显示了该框架的优势。

Paper4 Model Adaptation for Time Constrained Embodied Control

摘要小结: 当为实体代理采用深度学习模型时，需要优化模型结构以适应特定任务和操作条件。这种优化可以是静态的，如模型压缩，也可以是动态的，如自适应推理。然而，这些技术尚未被完全研究用于受时间约束的实体控制系统，这些系统需要针对多个任务进行顺序决策，每个任务都有不同的推理延迟限制。在本文中，我们介绍了MoDeC，一个使用模块化模型适应的时间约束感知实体控制框架。我们将模型适应不断变化的操作条件（资源和时间限制）制定为在模块化网络上进行动态路由，将这些条件作为多任务目标的一部分。我们的评估跨越了几个基于视觉的实体环境，证明了MoDeC的鲁棒性，显示它在机器人操作和自动驾驶应用中的性能和时间约束遵守方面优于其他模型适应方法。

概述主要内容：
这段话介绍了MoDeC，这是一个针对实体代理的时间约束感知控制框架。该框架使用模块化模型适应来优化深度学习模型，以应对特定任务和操作条件。文章强调了这种适应可以是动态的，并且MoDeC在多个任务中的表现，尤其是在机器人操作和自动驾驶应用中的性能和时间约束遵守方面，优于其他方法。

Paper5 Unleashing the Potential of SAM for Medical Adaptation via Hierarchical Decoding

摘要小结: SAM模型（Segment Anything Model）因其多功能的分割能力和直观的基于提示的界面而受到广泛关注。然而，其在医学成像中的应用面临挑战，需要大量的训练成本和广泛的医学数据集进行完整模型微调，或者需要高质量提示以达到最佳性能。本文介绍了H-SAM：一种无需提示的SAM改编，专为通过两阶段层次解码过程的医学图像高效微调而设计。

以下是翻译和概述：

翻译：
段分割任何模型（SAM）因其多功能的分割能力和直观的基于提示的界面而引起了广泛关注。然而，其在医学成像领域的应用提出了挑战，这需要要么是大量的训练成本和广泛的医学数据集以进行完整模型的微调，要么是高质量提示以达到最佳性能。本文介绍了H-SAM：一种无需提示的SAM改编，专为通过两阶段层次解码过程高效微调医学图像而定制。在初始阶段，H-SAM使用SAM的原始解码器生成一个先验概率掩模，指导第二阶段更复杂的解码过程。具体而言，我们提出了两个关键设计：1) 一个类平衡的掩模引导自我注意力机制，解决不平衡的标签分布，增强图像嵌入；2) 一个可学习的掩模交叉注意力机制，根据先验掩模空间调节不同图像区域之间的相互作用。此外，H-SAM中的层次像素解码器增强了其捕捉细粒度和局部化细节的能力。这种方法使SAM能够有效地整合学习的医学先验，便于增强对医学图像分割的有限样本适应。

概述：

本文讨论了H-SAM，这是一种专为医学图像设计的SAM改编。H-SAM通过两阶段的层次解码过程进行高效微调，包括使用原始解码器生成先验概率掩模等。它还包括两个关键设计，显著提高了性能。H-SAM在仅使用10%的2D切片时，展示了比现有无需提示的SAM变种平均Dice提高4.78%的性能，并且在没有使用任何未标记数据的情况下，甚至超过了依赖大量未标记训练数据的最先进半监督模型。以下是主要内容：

H-SAM的设计和两阶段层次解码过程。
类平衡的掩模引导自我注意力机制。
可学习的掩模交叉注意力机制。
H-SAM在医学图像分割上的性能提升。

Paper6 Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution

摘要小结: 这段话的中文翻译如下：

扩散模型正处于图像超分辨率任务的转折点。然而，要利用扩散模型进行视频超分辨率并非易事，这不仅仅需要从低分辨率视频到高分辨率视频保持视觉外观的连贯性，还需要保证视频帧之间的时间一致性。在本文中，我们提出了一种新颖的方法，追求视频超分辨率中的空间适应性和时间一致性（SATeCo）。SATeCo依赖于从低分辨率视频中学习空间-时间指导，以校准潜在空间的高分辨率视频去噪和像素空间的视频重建。在技术层面，SATeCo冻结了预训练的UNet和VAE的所有参数，并且只优化了在UNet和VAE解码器中特意设计的两个空间特征适应（SFA）和时间特征对齐（TFA）模块。SFA通过自适应地估计每个像素的仿射参数来调节帧特征，确保高分辨率帧合成的像素级指导。TFA通过自注意力在3D局部窗口（管状区域）内进行特征交互，并通过管状区域与其低分辨率对应物之间的交叉注意力来指导时间特征对齐。在REDS4和Vid4数据集上进行的广泛实验证明了我们方法的有效性。

主要内容概述：
这段话介绍了一种新的视频超分辨率方法，称为SATeCo，它专注于在视频超分辨率中实现空间适应性和时间一致性的双重目标。该方法通过学习低分辨率视频中的空间-时间指导来提高高分辨率视频的质量，同时保持视频帧间的时间连贯性。技术实现上，SATeCo在预训练的UNet和VAE模型的基础上，仅优化了解码器中的空间特征适应和时间特征对齐模块。实验表明，该方法在两个常用数据集上均取得了良好的效果。

Paper7 MoML: Online Meta Adaptation for 3D Human Motion Prediction

摘要小结: 在学术领域，关于人类运动预测任务的研究主要集中在利用观察到的信息准确预测近期内的人类运动。然而，在应用领域出现了一个显著的差距，因为当前模型都是离线训练的，具有固定的参数，这些参数本质上不擅长处理复杂且不断变化的人类行为本质。为了弥补这一差距，本文提出了一项在线元适应任务，用于人类运动预测。文章认为，找到能够快速调整以适应不同运动情境的“智能权重”是提高预测准确性的关键。我们提出了MoML，它巧妙地借鉴了模型不可知元学习的双层优化精神，将先前的预测错误转化为强大的归纳偏差，以指导在线适应。这是通过我们的MoAdapter块实现的，它可以学习错误信息，通过几个梯度步骤促进有效适应，从而微调由通用预测器产生的元学习“智能”初始化。

以下是主要内容概述：

翻译与概述：

在学术领域，人类运动预测任务的研究主要关注如何准确预测短期内的人类运动。但应用领域中，现有模型因离线训练和固定参数，难以应对人类行为的变化。本文提出了在线元适应任务，旨在通过“智能权重”提升预测准确性。以下是MoML方法：

MoML利用元学习的精神，将预测错误转化为指导在线适应的偏差。
MoML使用MoAdapter块学习错误信息，并通过梯度步骤进行适应。

此外：

为了实践中的实时要求，提出了Fast-MoML，这是一种更高效的MoML变体，具有闭合形式的解决方案。

实验结果显示，这种方法能有效将现有离线模型转为在线，并提升预测准确性。

主要内容：
文章介绍了在线元适应任务，提出了一种新的方法MoML，以及其更高效的变体Fast-MoML，用于提升人类运动预测的准确性。

Paper8 Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation

摘要小结: 大规模语言模型的成功激发了计算机视觉界探索图像分割基础模型，这种模型能够通过提示工程实现零样本/少样本泛化。其中，Segment-Anything（SAM）是当前最先进的图像分割基础模型，展示了强大的零样本/少样本泛化能力。然而，最近的研究发现，在强分布偏移情况下，SAM存在弱点。特别是，SAM在处理被破坏的自然图像、伪装图像、医学图像等方面表现不佳。基于这些观察，我们旨在开发一种基于自我训练的策略，以适应SAM的目标分布。考虑到大型源数据集的独特挑战、高计算成本以及错误的伪标签，我们提出了一种带有锚点正则化和低秩微调的弱监督自我训练架构，以改进适应的鲁棒性和计算效率。

主要内容概述：

大规模语言模型的成功促使研究图像分割模型。
SAM是先进的模型，但存在弱点。
本文提出自我训练策略，包括锚点正则化和低秩微调。
方法在多种下游分割任务上进行了验证。

以下是翻译：

大型语言模型的成功激励了计算机视觉社区探索能够通过提示工程实现零样本/少样本泛化的图像分割基础模型。其中，Segment-Anything（SAM）等是最先进的图像分割基础模型，表现出强大的零样本/少样本泛化能力。尽管取得了成功，但最近的研究揭示了SAM在强烈分布转移下的弱点。特别是，SAM在处理损坏的自然图像、伪装图像、医学图像等方面表现得很不自然。受这些观察的启发，我们旨在开发一种基于自我训练的策略，以适应SAM的目标分布。考虑到大型源数据集的独特挑战、高计算成本以及错误的伪标签，我们提出了一种带有锚点正则化和低秩微调的弱监督自我训练架构，以提高适应的鲁棒性和计算效率。我们在5种下游分割任务上验证了其有效性，包括自然清洁/损坏图像、医学图像、伪装图像和机器人图像。我们提出的方法本质上是任务不可知的，并且在几乎所有的下游任务上均优于预训练的SAM和最先进的领域适应方法，使用相同的测试提示输入。

Paper9 Driving Everywhere with Large Language Model Policy Adaptation

摘要小结: 这段话的中文翻译如下：

适应新的环境、习俗和法律驾驶行为是自动驾驶领域长期存在的问题，这阻碍了自动驾驶车辆（AVs）的广泛部署。在本文中，我们介绍了LLaDA，这是一个简单但强大的工具，能够使人类驾驶员和自动驾驶车辆一样，通过适应新地点的交通规则来调整他们的任务和运动计划，从而在任何地方驾驶。LLaDA通过利用大型语言模型（LLMs）在解释当地驾驶员手册中的交通规则方面令人印象深刻的零样本泛化能力来实现这一点。通过广泛的用户研究，我们显示LLaDA的指令在解决野外意外情况中的歧义是有用的。我们还展示了LLaDA在现实世界数据集中调整AV运动规划策略的能力；LLaDA在所有我们的指标上都优于基线规划方法。请查看我们的网站了解更多详情：https://boyiliee.github.io/llada.

主要内容概述：

这段话介绍了一项名为LLaDA的研究，这是一个工具，旨在帮助自动驾驶车辆和人类驾驶员适应新环境的交通规则。通过使用大型语言模型来解释当地驾驶员手册中的规则，LLaDA能够帮助解决自动驾驶中的长期问题。此外，研究通过用户研究和现实世界数据集展示了LLaDA的有效性，表明它在规划方面优于基线方法。

Paper10 Efficient Test-Time Adaptation of Vision-Language Models

摘要小结: 这段话的中文翻译如下：

在测试时使用预训练的视觉-语言模型进行自适应调整越来越受到关注，以应对测试时的分布偏移。尽管先前的研究已经取得了非常鼓舞人心的性能，但它们涉及到的计算量很大，这与测试时的自适应严重不匹配。我们设计了一种名为TDA的训练无关动态适配器，它能有效地实现视觉-语言模型的有效和高效测试时自适应。TDA采用了一个轻量级的关键值缓存，该缓存维护了一个动态队列，其中以少数样本伪标签作为值，相应的测试样本特征作为键。利用关键值缓存，TDA允许通过逐步伪标签精炼来逐渐适应测试数据，这种做法非常高效，且不会产生任何反向传播。此外，我们引入了负伪标签，通过在模型对其伪标签预测不确定时为某些负类分配伪标签，减轻伪标签噪声的负面影响。在两个基准测试上的大量实验表明，TDA在有效性和效率方面均优于现有技术水平。代码已发布在 https://kdiaaa.github.io/tda/…

主要内容概述：

这段话介绍了一种名为TDA的训练无关动态适配器，用于在测试时对视觉-语言模型进行自适应调整。TDA使用轻量级的关键值缓存来逐步精炼伪标签，实现高效的自适应。同时，引入了负伪标签来减轻伪标签噪声的影响。实验证明，TDA在有效性和效率方面优于现有技术。

Paper11 InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning

摘要小结: 这段话的中文翻译如下：

持续学习要求模型依次学习多个任务。在持续学习中，模型应具备保持旧任务性能（稳定性）以及不断适应新任务的能力（塑性）。最近，参数高效微调（PEFT）在持续学习中越来越受欢迎，该方法涉及冻结预训练模型并向其中注入少量可学习参数以适应下游任务。尽管基于PEFT的现有持续学习方法相较于非PEFT方法表现出更优越的性能，但大多数方法并未考虑如何消除新任务对旧任务的干扰，这限制了模型在稳定性和塑性之间做出良好权衡。在本研究中，我们提出了一种新的PEFT方法，称为无干扰低秩适应（InfLoRA）用于持续学习。InfLoRA注入少量参数来重新参数化预训练权重，并表明微调这些注入的参数等于在子空间内微调预训练权重。此外，InfLoRA设计这个子空间以消除新任务对旧任务的干扰，实现稳定性和塑性之间的良好权衡。实验结果显示，InfLoRA在多个数据集上优于现有的最先进持续学习方法。

主要内容概述：
这段话讨论了持续学习中模型需要处理的多任务学习问题，并强调了模型在稳定性和塑性之间的权衡。它介绍了参数高效微调（PEFT）的流行，并提出了一种新的方法InfLoRA。InfLoRA旨在通过特定的子空间设计来减少新任务对旧任务的干扰，实验证明其效果优于现有方法。

Paper12 Improved Self-Training for Test-Time Adaptation

摘要小结: 测试时自适应（TTA）是一种技术，可以在不使用任何标记数据的情况下提高预训练源模型在目标分布上的性能。然而，现有的自训练TTA方法通常面临伪标签不可靠和模型优化不稳定的问题。在本文中，我们提出了一种改进的自训练（IST）方法，通过提高伪标签质量和稳定适应过程来应对这些挑战。具体来说，我们使用简单的增强策略为每个测试样本生成多个视图，并构建图结构以根据潜在特征的相似性来纠正伪标签。此外，我们采用参数移动平均方案来平滑模型更新并防止灾难性遗忘。我们不是使用具有固定标签空间的模型，而是探索基础模型CLIP在测试时对各种下游任务的适应性。在各个基准上的大量实验表明，IST在分类、检测和分割任务上可以显著并一致地优于现有的TTA方法。

主要内容概述：本文介绍了一种改进的自训练方法（IST），用于测试时自适应，以提高预训练模型在无标签数据的目标分布上的性能。该方法通过增强伪标签质量和稳定适应过程来解决现有自训练方法中的问题。具体实现方式包括生成多个测试样本视图、构建图结构纠正伪标签、采用参数移动平均方案平滑模型更新等。实验证明，IST在多种任务上优于现有TTA方法。

Paper13 Time- Memory- and Parameter-Efficient Visual Adaptation

摘要小结: 随着基础模型越来越受欢迎，对于高效地将它们微调到下游任务的需求日益增长。虽然已经提出了许多适配方法，但它们旨在仅就训练参数的数量而言提高效率。然而，它们通常仍然需要通过整个模型反向传播梯度，这意味着它们的训练时间和内存成本并没有显著降低。我们提出了一种不通过骨干反向传播梯度的适配方法。通过设计一个轻量级网络，该网络与冻结的预训练骨干并行运行，处理来自骨干的特征。因此，我们的方法在参数数量、训练时间和内存使用方面都实现了高效。我们的方法在流行的VTAB基准测试中实现了最先进的准确率-参数权衡，并且我们还进一步展示了我们的方法在训练时间和内存使用方面也优于之前的工作。此外，我们通过将一个40亿参数的视觉变换器骨干适配到计算要求高的视频分类任务，展示了我们方法的训练效率和可扩展性，而且不需要任何复杂的模型并行。在这里，我们优于之前基于适配器的方法，该方法只能扩展到10亿参数的骨干，或者使用相同的GPU和更少的训练时间完全微调一个更小的骨干。

主要内容概述：
本文介绍了一种新的模型适配方法，该方法在微调大型基础模型时可以提高训练时间和内存使用的效率。该方法不通过骨干模型反向传播梯度，而是通过并行设计的轻量级网络处理特征。作者在VTAB基准测试上展示了方法在准确率和参数权衡方面的优势，并且在训练时间和内存使用方面也优于之前的研究。文章还通过一个40亿参数的视觉变换器模型在视频分类任务上的应用，进一步证明了该方法的高效性和可扩展性。

Paper14 GDA: Generalized Diffusion for Robust Test-time Adaptation

摘要小结: 这段话的中文翻译如下：

机器学习模型在遇到具有不可预见分布偏移的非分布内（OOD）样本时，面临泛化挑战。最新研究表明，对于视觉任务，测试时采用扩散模型进行适配可以在不改变模型权重的情况下生成与域对齐的样本，从而在OOD样本上实现最先进的准确度提升。然而，这些研究主要集中在像素级损坏上，因此缺乏泛化以适应更广泛的OOD类型。我们引入了广义扩散适配（GDA），这是一种新颖的基于扩散的测试时适配方法，能够抵抗多种多样的OOD类型。具体来说，GDA通过在反向采样过程中应用由模型导出的边际熵损失以及风格和内容保持损失来迭代引导扩散。换句话说，GDA将模型的输出行为和样本的语义信息作为一个整体考虑，减少了下游任务的模糊性。评估结果显示，GDA在各种模型架构和OOD基准测试中始终超越先前的基于扩散的适配方法。值得注意的是，它在ImageNet-C上的分类准确度提升最高，达到4.4%到5.02%，在Rendition Sketch和Stylized基准上达到2.5%到7.4%。

主要内容概述：

这段话讲述的是机器学习模型在处理非分布内样本时遇到的挑战。文中提出了一种新的方法——广义扩散适配（GDA），这是一种基于扩散的测试时适配方法，能够有效应对多种OOD类型。GDA通过特定损失函数来引导扩散过程，并在多个模型架构和OOD基准测试中展示了优于先前方法的性能。

Paper15 Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation

摘要小结: 连续测试时自适应（CTTA）被提出来，目的是将源预训练模型迁移到不断变化的目标分布，以应对现实世界的动态性。现有的CTTA方法主要依赖于熵最小化或师生伪标签方案，在未标记的目标领域进行知识提取。然而，动态数据分布导致现有的自监督学习方法中出现预测校准不准确和噪声伪标签，阻碍了在连续自适应过程中有效缓解错误累积和灾难性遗忘问题。为了解决这些问题，我们提出了一种连续自监督方法——自适应分布掩码自动编码器（ADMA），它增强了目标领域知识的提取，同时减轻了分布偏移的累积。具体来说，我们提出了一种分布感知掩码（DaM）机制，以自适应地采样掩码位置，并建立掩码目标样本与原始目标样本之间的一致性约束。此外，对于掩码标记，我们利用一个高效的解码器重建一个手工制作的功能描述符（例如，方向梯度直方图），利用其不变性质来提升任务相关的表示。

主要内容概述：

CTTA旨在应对现实世界的动态性。
现有方法面临预测校准和伪标签问题。
提出了ADMA方法，通过DaM机制和重建功能描述符来提升性能。
方法在分类和分割CTTA任务中取得了最先进的表现。以下是翻译：

以下是翻译：

连续测试时自适应（CTTA）被提出，旨在将源预训练模型迁移到不断变化的目标分布，以应对现实世界的动态性。现有的CTTA方法主要依赖于在未标记的目标领域进行知识提取的熵最小化或师生伪标签方案。然而，动态数据分布导致现有自监督学习方法中的预测不准确和伪标签噪声，阻碍了在连续自适应过程中有效减轻错误累积和灾难性遗忘问题。为了解决这些问题，我们提出了一种连续自监督方法——自适应分布掩码自动编码器（ADMA），它能在增强目标领域知识提取的同时减轻分布偏移的累积。具体来说，我们提出了一种分布感知掩码（DaM）机制，以及一些额外措施。通过在四个广泛认可的基准上进行大量实验，我们提出的方法在分类和分割CTTA任务中均取得了最先进的性能。

Paper16 Orthogonal Adaptation for Modular Customization of Diffusion Models

摘要小结: 文本到图像模型的定制技术为广泛的前所未有的应用铺平了道路，使得在各种不同情境和风格中生成特定概念成为可能。虽然现有方法能够为单个概念或有限的预定义概念集实现高保真定制，但它们在可扩展性方面存在不足，无法实现一个单一模型无缝渲染无数概念。在本文中，我们提出了一个名为模块化定制的新问题，目标是有效地合并独立为单个概念进行微调的定制模型。这使得合并后的模型可以在不牺牲保真度或带来额外计算成本的情况下，共同合成一个图像中的多个概念。为了解决这个问题，我们引入了正交适配方法，旨在鼓励在微调过程中无法相互访问的定制模型具有正交的残差权重。这确保了在推理时，定制模型可以以最小的干扰相加。

以下是主要内容概述：

翻译内容：定制技术的概述和模块化定制的提出

主要内容：

定制技术让生成特定概念成为可能。
现有方法在可扩展性方面存在问题。
提出模块化定制问题，旨在合并独立微调的定制模型。
引入正交适配方法，确保定制模型在推理时可以最小干扰相加。
该方法简单且多用途，适用于模型架构中几乎所有的可优化权重。
通过大量定量和定性评估，方法表现优于相关基线，显示出向扩散模型可扩展定制的重要进展。

Paper17 Bilateral Adaptation for Human-Object Interaction Detection with Occlusion-Robustness

摘要小结: 人体与物体交互（HOI）检测是人类中心场景理解的重要方面，它需要精确的物体检测和交互识别。尽管检测技术不断进步，但识别微妙而复杂的交互仍然具有挑战性。最近的方法尝试利用预先训练的CLIP中的丰富语义表示，但未能有效捕捉到对交互判别具有高度信息性的更细粒度的空间特征。在这项工作中，我们不仅仅是使用CLIP的表示，而是通过提出一个空间适配器来填补这一空白，该适配器有效地利用了预先训练检测器中的多尺度空间信息。这导致了双边适应，相互产生互补特征。以下是对内容的翻译和概述：

翻译：
人体与物体交互（HOI）检测构成了以人为中心场景理解的重要方面，这需要精确的物体检测和交互识别。尽管检测技术不断进步，但识别细微和复杂交互仍然具有挑战性。最近的方法努力利用预先训练的CLIP中的丰富语义表示，但未能有效地捕捉到对交互区分具有高度信息性的更细粒度的空间特征。在这项工作中，我们不是仅仅使用CLIP的表示，而是通过提出一个空间适配器来填补这一空白，该适配器有效地利用了预先训练检测器中的多尺度空间信息。这导致了双边适应，相互产生互补特征。为了进一步提高在遮挡情况下的交互识别，这在拥挤的场景中很常见，我们提出了一种遮挡部分外推模块，引导模型从手动遮挡的特征图中恢复空间细节。此外，我们设计了一个条件上下文挖掘模块，该模块通过定制化的跨注意力机制进一步从空间特征中挖掘信息性上下文线索。

概述：
主要内容是讨论HOI检测的重要性，以及当前面临的挑战。研究提出了一种新的方法，通过空间适配器利用多尺度空间信息，以及两个模块：遮挡部分外推模块和条件上下文挖掘模块，以提高交互识别。实验证明，这种方法在多个基准上显著优于先前的技术，达到了新的最先进性能。以下是关键点：

HOI检测是场景理解的关键。
现有方法在捕捉细粒度空间特征方面存在不足。
提出了空间适配器和两个模块来改进这一问题。
实验结果证明了方法的有效性。

Paper18 AETTA: Label-Free Accuracy Estimation for Test-Time Adaptation

摘要小结: 测试时自适应（TTA）已经成为一种可行的解决方案，它能够使用未标记的测试数据来适应预训练模型到领域变化。然而，TTA面临着在动态场景中由于依赖对未知测试样本的盲目适应而导致的适应失败挑战。传统的分布外性能估计方法在TTA背景下受到限制，例如它们需要标记数据或重新训练模型等不切实际的假设。为了解决这一问题，我们提出了AETTA，这是一种针对TTA的无标签准确度估计算法。我们提出了预测分歧作为准确度的估计，通过比较目标模型预测与dropout推理来计算。然后，我们改进了预测分歧，以扩展AETTA在适应失败情况下的适用性。我们通过与四个基线和六种TTA方法的广泛评估，证明AETTA的平均估计准确度比基线高出19.8%。我们还通过一个模型恢复的案例研究进一步证明了准确度估计的有效性，展示了基于准确度估计的模型恢复的实用性。源代码可在 https://github.com/taeckyung/AETTA 获得。

概述：
这段话主要介绍了测试时自适应（TTA）面临的挑战，并提出了AETTA算法，这是一种无标签准确度估计方法。该方法通过预测分歧来计算准确度，并在适应失败情况下改进预测分歧。实验证明AETTA比基线方法更准确，并通过模型恢复案例展示了其实用性。

Paper19 A Closer Look at the Few-Shot Adaptation of Large Vision-Language Models

摘要小结: 这段话的中文翻译如下：

高效迁移学习（ETL）越来越受到关注，它能够适应大规模预训练的语言-视觉模型，以在只有少量标注样本的下游任务上进行应用。虽然已经取得了显著的进展，但我们发现最先进的ETL方法仅在严格定义的实验设置下，并且基于大量标注样本的大型语料库仔细调整超参数后，才会表现出强大的性能。特别是，我们有两个有趣且令人惊讶的实证观察。首先，为了超过简单的线性探测基线，这些方法需要在每个目标任务上优化它们的超参数。其次，在存在分布偏移的情况下，它们通常表现不佳，有时甚至远低于标准的零样本预测。受到现有文献中不切实际的假设（即访问大型验证集和对最优超参数进行特定情况的网格搜索）的启发，我们提出了一种新颖的方法，该方法符合现实世界场景的需求。更具体地说，我们引入了一个类自适应线性探测（CLAP）目标函数，其平衡项是通过对此上下文定制的一般增强拉格朗日方法的改编进行优化的。我们在广泛的数据集和场景上全面评估了CLAP，证明了它始终优于现有技术水平（SoTA）的方法，同时还是一个更为高效的替代方案。

主要内容概述：
本文讨论了高效迁移学习（ETL）在适应大规模预训练模型到下游任务时的性能问题，指出当前的ETL方法仅在特定条件下表现良好，并且需要针对每个任务精细调整超参数。文章提出了两个实证发现，并基于此提出了名为CLAP的新方法，该方法优化了类自适应线性探测目标函数，并通过改进的增强拉格朗日方法进行优化。作者通过实验证明CLAP在各种数据集和场景下均优于现有方法，且效率更高。

Paper20 Single-to-Dual-View Adaptation for Egocentric 3D Hand Pose Estimation

摘要小结: 这段话的中文翻译如下：

追求准确的三维手部姿态估计是理解以自我为中心视觉领域中人类活动的一个关键。现有的估计方法大多仍以单视角图像作为输入，这可能导致一些潜在的限制，例如视野有限和在深度上的模糊性。为了解决这些问题，增加另一台摄像机以更好地捕捉手部的形状是一个实际的方向。然而，现有的多视角手部姿态估计方法存在两个主要缺点：1）训练时需要多视角注释，这很昂贵。2）在测试时，如果相机参数/布局与训练时不同，模型将不适用。在本文中，我们提出了一种新颖的单视角到双视角自适应（S2DHand）解决方案，将预训练的单视角估计器适应到双视角。与现有的多视角训练方法相比，1）我们的自适应过程是无监督的，无需多视角注释。2）此外，我们的方法可以处理任意双视角对，即使相机参数未知，这使得模型适用于多种相机设置。具体来说，S2DHand基于某些立体约束，包括视图间成对交叉共识和两个视图之间变换的不变性。这两个立体约束以互补的方式用于生成伪标签，允许可靠的自适应。评估结果显示，S2DHand在任意相机对下，无论是数据集内还是跨数据集设置，都取得了显著的改进，并优于现有的自适应方法，表现出领先性能。

以下是主要内容概述：

这段话主要讨论了三维手部姿态估计的重要性，指出了现有方法的局限性，并提出了一个新的解决方案S2DHand。该解决方案旨在通过无监督的自适应过程，将预训练的单视角估计器适应到双视角，从而提高估计的准确性。该方法还能处理未知相机参数的任意双视角对，并且在多种设置下都取得了显著的性能提升。

Paper21 Fast Adaptation for Human Pose Estimation via Meta-Optimization

摘要小结: 域迁移是对监督人体姿态估计的一个挑战，其中源数据和目标数据来自不同的分布。这也是为什么姿态估计方法在测试集上的表现通常不如训练集。最近，测试时自适应已被证明是处理人体姿态估计中域迁移的有效方法。尽管目标域的性能得到了提高，但现有方法需要大量的权重更新才能收敛，这既耗时又会导致灾难性遗忘。为了解决这些问题，我们提出了一种元辅助学习方法，以在推理期间实现域迁移的快速自适应。具体来说，我们将人体姿态估计作为监督主任务，并提出了一个自我监督的辅助任务——特定于人体的图像修复。首先，我们共同训练主任务和辅助任务，以在源域上获得一个预训练模型。然后，元训练将两个任务的表现相关联，以学习良好的权重初始化。最后，元测试通过自我监督学习将元学习模型适应目标数据。

以下是主要内容概述：

翻译内容：域迁移是监督人体姿态估计的挑战，因为数据分布不同。这导致测试集表现不如训练集。测试时自适应有效应对域迁移。现有方法耗时且可能导致遗忘。我们提出快速适应的元辅助学习方法，使用人体姿态估计为主任务，图像修复为辅助任务，实现了目标域的快速适应。

概述：

域迁移是主要挑战。
测试时自适应是一种有效方法。
提出了一种元辅助学习方法。
主任务是人类姿态估计，辅助任务是图像修复。
方法有效实现了快速适应，同时保留了源域知识。

Paper22 TTA-EVF: Test-Time Adaptation for Event-based Video Frame Interpolation via Reliable Pixel and Sample Estimation

摘要小结: 视频帧插值（VFI）旨在从低帧率输入生成高帧率视频，是一项极具挑战性的任务。生物启发传感器（称为事件相机）的出现，其具有微秒级的时间分辨率，为VFI带来了变革性的时代。然而，将基于事件的VFI技术应用于与训练数据环境截然不同的领域可能会出现问题。这主要是因为事件相机数据分布会根据相机设置和场景条件发生重大变化，给有效适应带来挑战。在本文中，我们提出了一种针对基于事件的VFI的测试时自适应方法，以解决源域和目标域之间的差距。我们的方法能够在目标域上进行顺序学习，该域仅提供低帧率视频。以下是主要内容概述：

翻译内容：
视频帧插值（VFI）是一个极具挑战性的任务，旨在从低帧率输入生成高帧率视频。以下主要内容：

概述：

事件相机的出现推动了VFI变革。
事件基于VFI技术在不同领域应用存在问题。
提出了一种测试时自适应方法，解决源域和目标域差距。
方法包括在线顺序学习，利用低帧率视频。

以下是详细内容：

我们提出的方法利用置信像素作为伪真实值，实现从低帧率视频的稳定和准确在线学习。
为了防止在连续在线过程中过度拟合，我们提出了一种将历史样本与当前场景融合的方法。
广泛的实验验证了我们的方法在跨域和连续域转移设置中的有效性。
代码可在指定GitHub链接获取。

总结：这段话主要讲述了VFI的挑战，提出了一种新的自适应方法，并通过实验验证了其有效性。

Paper23 Efficient Stitchable Task Adaptation

摘要小结: 这段话的中文翻译如下：

预训练和微调的范式为部署深度学习模型奠定了基础。然而，大多数微调方法都是针对特定的资源预算设计的。最近，考虑到各种资源预算的多样化部署场景，引入了SN-Net，它可以通过模型拼接从预训练模型（锚点）家族中快速获得大量新网络（拼接）。尽管SN-Net很有前景，但当它适应新的目标领域时，仍面临新的挑战，包括巨大的内存和存储需求以及一个漫长且次优的多阶段适应过程。在这项工作中，我们提出了一个新颖的框架——高效可拼接任务适应（ESTA），以高效地生成符合多样化资源约束的微调模型调色板。具体来说，我们首先定制参数高效的微调，以在拼接之间共享低秩更新，同时保持独立的偏差项。这样，我们大幅减轻了微调的内存负担，并缓解了任务适应中拼接之间的干扰。此外，我们还简化了一个简单而有效的单阶段部署管道，它通过训练时的梯度统计估计重要拼接进行部署。通过给重要的拼接分配更高的采样概率，我们还获得了提升的帕累托前沿。在25个下游视觉识别任务上的广泛实验表明，我们的ESTA能够生成具有平滑准确率-效率权衡的拼接，并且在训练时间和可训练参数显著降低的情况下，超越了直接SN-Net适应的显著优势。此外，我们还通过拼接LLaMA家族的LLMs，展示了我们ESTA框架的灵活性和可扩展性，获得了各种大小的聊天机器人拼接。

主要内容概述：
这段话介绍了深度学习模型部署中预训练和微调范式的重要性，并指出现有微调方法通常针对特定资源预算设计。随后，介绍了SN-Net方法，它可以通过模型拼接快速生成新网络，但面临适应新领域时的挑战。本文提出了一个新的框架ESTA，它能够高效地生成适应不同资源约束的微调模型。ESTA通过共享低秩更新来减少内存负担，并通过单阶段部署管道优化模型适应过程。实验证明，ESTA在多个任务上优于直接SN-Net适应，且具有更低的训练成本和参数需求。最后，还展示了ESTA在生成不同大小的聊天机器人模型方面的灵活性和可扩展性。

Paper24 Federated Online Adaptation for Deep Stereo

摘要小结: 我们提出了一种新颖的方法，以协作方式调整深度立体网络。在联邦学习的原则基础上，我们开发了一个分布式框架，允许将优化过程分配给部署在不同环境中的多个客户端。这使得在资源受限设备上运行的深度立体网络能够利用同一架构的其他实例进行的适应过程，从而在具有挑战性的环境中提高其准确度，即使它无法自行进行适应。实验结果表明，联邦适应性能与设备上适应相当，甚至在处理具有挑战性的环境时表现更好。

主要内容概述：
本文介绍了一种基于联邦学习的分布式框架，用于协作调整深度立体网络。这种方法允许资源受限的设备利用其他相同架构实例的适应过程，提高在挑战性环境中的准确度。实验证明，该方法的性能与设备上适应相媲美，且在挑战性环境中表现更佳。

Paper25 Test-Time Adaptation for Depth Completion

摘要小结: 这段话的中文翻译如下：

在将一些（源）数据集上训练的模型转移到目标测试数据时，常常会观察到性能下降，这是由于它们之间的领域差距造成的。现有的弥合这一差距的方法，如领域自适应（DA），可能需要模型训练时使用的源数据（通常不可用），而其他方法，例如无源数据DA，则需要通过测试数据多次迭代。我们提出了一种在线测试时间自适应方法，用于深度完成任务，即从单个图像和相关的稀疏深度图推断出密集深度图，该方法在单次迭代中缩小了性能差距。首先，我们研究了每个数据模态中的领域变化如何影响模型性能。基于我们的观察，即稀疏深度模态的协变量转移要远小于图像，我们设计了一个在源领域中训练的嵌入模块，该模块保留了一个从仅编码稀疏深度的特征到编码图像和稀疏深度的特征的映射。在测试时，使用此映射将稀疏深度特征投影为源领域特征的代理，并用作训练一组辅助参数（即自适应层）的指导，以将目标测试域中的图像和稀疏深度特征与源域对齐。我们在室内和室外场景中评估了我们的方法，并显示其平均优于基线21.1%。代码可在 https://github.com/seobbro/TTA-depth-completion. 获得。

主要内容概述：

这段话讨论了在模型训练和测试数据之间存在领域差距时，性能下降的问题。提出了一种在线测试时间自适应方法，用于深度完成任务。该方法能够在单次迭代中缩小性能差距。作者还研究了数据模态中的领域变化对模型性能的影响，并设计了一个嵌入模块来帮助对齐特征。该方法在室内外场景中表现良好，平均优于基线21.1%。

Paper26 MedBN: Robust Test-Time Adaptation against Malicious Test Samples

摘要小结: 测试时自适应（TTA）已成为解决训练数据和测试数据之间不可预见分布差异导致的性能下降的有前景的解决方案。尽管最近的TTA方法在适应测试数据变化方面表现出色，但这种适应性使模型容易受到恶意示例的影响，这是一个受到较少关注的方面。先前的研究发现，即使在测试批次中只有一小部分被恶意操纵，TTA中也存在安全漏洞。针对新兴威胁，我们提出了一种中值批量归一化（MedBN）方法，利用中值的鲁棒性在测试时推理中对批量归一化层内的统计量进行估计。我们的方法是算法无关的，因此可以与现有的TTA框架无缝集成。我们在包括CIFAR10-C、CIFAR100-C和ImageNet-C在内的基准数据集上的实验结果一致表明，MedBN在保持不同攻击场景（包括即时攻击和累积攻击）的稳健性能方面优于现有方法。通过大量实验，我们显示即使在没有攻击的情况下，我们的方法也能保持性能，实现了稳健性和性能之间的实际平衡。

主要内容概述：这段话主要讨论了测试时自适应（TTA）方法在处理训练和测试数据间分布差异方面的优势及其潜在的安全风险。作者针对TTA易受恶意示例攻击的问题，提出了一种新的中值批量归一化（MedBN）方法，以提高测试时推理的鲁棒性。该方法与现有TTA框架兼容，并在多个基准数据集上的实验中展示了优越的性能和稳健性。

Paper27 MTLoRA: Low-Rank Adaptation Approach for Efficient Multi-Task Learning

摘要小结: 这段话的中文翻译如下：

将在大规模数据集上预训练的模型适配到各种下游任务是深度学习中的常见策略。因此，参数高效的微调方法已经成为一种有前景的方式，可以在仅训练极少量参数的情况下，将预训练模型适配到不同的任务。尽管这些方法大多数是为单一任务适配设计的，但在多任务学习（MTL）架构中的参数高效训练仍然是未探索的领域。在本文中，我们介绍了MTLoRA，这是一个用于MTL模型参数高效训练的新框架。MTLoRA采用任务无关和任务特定的低秩适配模块，有效地在MTL微调中分离参数空间，从而使模型能够熟练地处理MTL上下文中的任务专业化和交互。我们将MTLoRA应用于基于层次变换器的MTL架构，使其适配到多个下游密集预测任务。我们在PASCAL数据集上的广泛实验表明，与完全微调MTL模型相比，MTLoRA在下游任务上实现了更高的准确度，同时将可训练参数数量减少了3.6倍。此外，MTLoRA在可训练参数数量和下游任务准确度之间建立了帕累托最优的权衡，超过了当前最先进的参数高效训练方法的准确度和效率。

主要内容概述：

这段话主要介绍了一种新的框架MTLoRA，用于多任务学习（MTL）模型的参数高效训练。MTLoRA使用任务无关和任务特定的模块来有效分离参数空间，提高了模型在MTL环境中的表现。通过在PASCAL数据集上的实验，MTLoRA展示了在减少参数数量的同时，提高下游任务准确度的能力，并且优于现有的参数高效训练方法。

Paper28 Task-Conditioned Adaptation of Visual Features in Multi-Task Policy Learning

摘要小结: 这段话的中文翻译如下：

成功处理各种任务是自主代理的核心能力，这需要灵活地适应底层决策策略，正如我们在本工作中所争论的，还需要适应感知模块。类比地说，人类视觉系统使用自上而下的信号来集中注意力，这种注意力由当前任务决定。同样，我们在多任务策略学习的背景下，根据特定的下游任务调整预先训练的大规模视觉模型。我们引入了任务条件适配器，它不需要微调任何预先训练的权重，并结合了单一策略，该策略通过行为克隆训练，能够处理多个任务。我们将视觉适配器条件化在任务嵌入上，如果任务已知，可以在推理时选择，或者从一组示例演示中推断。为此，我们提出了一种新的基于优化的估计器。我们在CortexBench基准上对各种任务进行了评估，并表明与现有工作相比，它可以使用单一策略来处理。特别是，我们证明了调整视觉特征是关键设计选择，并且该方法在给定几个演示的情况下可以推广到未见过的任务。

主要内容概述：

这段话主要讨论了自主代理在处理多任务时的能力，强调了在多任务策略学习中，适应感知模块和决策策略的重要性。作者提出了一种任务条件适配器，这种适配器不需要微调预先训练的权重，并能与单一策略配合处理多个任务。此外，作者还介绍了如何使用任务嵌入来条件化视觉适配器，并提出了新的基于优化的估计器。最后，通过CortexBench基准的测试，证明了该方法的有效性。

Paper29 Each Test Image Deserves A Specific Prompt: Continual Test-Time Adaptation for 2D Medical Image Segmentation

摘要小结: 这段话的中文翻译如下：

在从不同医学中心获取的医学图像中，分布偏移广泛存在，这给在现实世界应用中部署预先训练的语义分割模型带来了重大障碍。测试时自适应已经证明了其在推理过程中解决跨域分布偏移的有效性。然而，大多数现有方法通过更新预训练模型来实现自适应，这使得它们在遇到一系列分布偏移时（即在下持续的测试时自适应设置下）容易受到错误累积和灾难性遗忘的影响。为了克服这些由于更新模型引起的挑战，在本文中，我们冻结了预训练模型，并提出了基于视觉提示的测试时自适应（VPTTA）方法，为每张测试图像训练一个特定的提示以对齐批归一化层中的统计信息。具体来说，我们提出了低频提示，它仅包含几个参数，非常轻量级，并且可以在单次迭代中有效训练。为了增强提示初始化，我们为VPTTA配备了记忆库，使当前提示能够从之前的提示中受益。此外，我们设计了一个预热机制，它混合源和目标统计信息来构建预热统计信息，从而促进训练过程。大量实验表明，我们的VPTTA在两个医学图像分割基准任务上优于其他最先进的方法。预训练源模型的代码和权重可在 https://github.com/Chen-Ziyang/VPTTA 上找到。

主要内容概述：
这段话讨论了医学图像中存在的分布偏移问题，以及如何通过一种新的方法（VPTTA）来解决这一问题。VPTTA方法通过为每张测试图像训练特定的视觉提示来对齐统计信息，而不是更新预训练模型，避免了错误累积和灾难性遗忘。该方法还包括记忆库和预热机制来增强性能。实验证明，VPTTA在医学图像分割任务上优于其他方法。

Paper30 TEA: Test-time Energy Adaptation

摘要小结: 测试时间自适应（TTA）旨在当测试数据与训练数据分布不一致时提高模型的泛化能力，其独特优势在于不需要访问训练数据和过程，尤其是在预训练模型背景下特别有价值。然而，当前的TTA方法未能解决一个基本问题：协变量偏移，即模型泛化能力的降低可以归因于模型依赖于训练数据的边缘分布，这可能会损害模型校准并引入确认偏差。为了解决这个问题，我们提出了一种新颖的能量基视角，在不要求访问训练数据或过程的情况下，增强模型对目标数据分布的感知。基于这一视角，我们引入了测试时间能量自适应（TEA），它将训练好的分类器转换为能量基模型，并使模型的分布与测试数据对齐，提高了模型感知测试分布的能力，从而提高了整体泛化能力。

以下是对主要内容的概述：

翻译内容：
测试时间自适应（TTA）的目标是在测试数据与训练分布不一致时提高模型的泛化能力，其优点是不需要访问训练数据和处理，这在预训练模型的情况下尤其有价值。然而，当前TTA方法未能解决根本问题：协变量偏移，即泛化能力的降低归因于模型依赖训练数据的边缘分布，这可能损害模型校准并引入确认偏差。

主要内容概述：

TTA方法旨在提升模型泛化能力。
现有方法未能解决协变量偏移问题。
提出了一种新的方法TEA。
TEA能提高模型对测试分布的感知。
以下是翻译：

以下是这段话的中文翻译：

测试时间自适应（TTA）旨在在测试数据与训练分布不一致时提高模型的泛化能力，其显著优点是不需要访问训练数据和处理过程，尤其在预训练模型的环境中尤其宝贵。然而，现有的TTA方法未能解决一个基本问题：协变量偏移，即模型泛化能力的降低可以归因于模型依赖于训练数据的边缘分布，这可能会损害模型的校准并引入确认偏差。为了解决这一问题，我们提出了一种新颖的能量基视角，在不要求访问训练数据或过程的情况下，增强模型对目标数据分布的感知。基于这个视角，我们引入了测试时间能量自适应（TEA），它将训练好的分类器转换为能量基模型，并与测试数据对齐，提高其感知测试分布的能力，从而提高整体泛化能力。在多个任务、基准和架构上的广泛实验证明了TEA在泛化性能上优于现有最佳方法。此外，深入分析揭示了TEA能够使模型全面感知测试分布，最终为改进泛化和校准铺平道路。代码可在 https://github.com/yuanyige/tea 获得。

Paper31 Segment Any Event Streams via Weighted Adaptation of Pivotal Tokens

摘要小结: 在这篇文章中，我们深入探讨了将Segment Anything Models (SAMs) 与事件数据集成这一细微的挑战，旨在实现事件中心领域内稳健且通用的对象分割。这一努力的核心关键问题是精确地对齐和校准从事件中心数据中获得的嵌入，使其与来自RGB图像的嵌入和谐共存。利用大量配对的事件和RGB图像数据集，我们提议利用并扩展预训练的SAM框架中蕴含的深厚知识。为实现这一目标，我们引入了一种多尺度特征蒸馏方法。该方法严格优化了来自事件数据的标记嵌入与其RGB图像对应物的对齐，从而保持了整体架构的稳健性并加以增强。考虑到中间层标记嵌入对高级嵌入的不同重要性，我们的策略集中在准确校准关键的标记嵌入上。

以下是主要内容概述：

翻译内容：本文讨论了将SAMs集成事件数据的挑战，以实现事件领域的对象分割。核心是校准事件数据的嵌入与RGB图像的嵌入。提出了多尺度特征蒸馏方法，以校准标记嵌入，管理不同领域的高级别嵌入差异。

主要内容概述：

文章探讨了集成SAMs和事件数据的挑战。
目标是实现稳健的通用对象分割。
提出了多尺度特征蒸馏方法。
方法旨在校准事件和RGB图像的标记嵌入。
实验证明该方法的有效性，代码已提供。

Paper32 Rapid Motor Adaptation for Robotic Manipulator Arms

摘要小结: 发展可泛化的操作技能是实体AI中的核心挑战。这包括在多样化的任务配置中的泛化，涵盖物体形状、密度、摩擦系数的变化以及外部干扰，如施加在机器人上的力。快速运动适应（RMA）为这一挑战提供了有前景的解决方案。它假设可以有效地从代理的行动和本体感觉历史中推断出影响代理任务表现的基本隐藏变量，例如物体质量和形状。从运动和手持旋转中的RMA获得灵感，我们使用深度感知来开发针对各种操作任务进行快速运动适应的代理。我们在Maniskill2基准的四个挑战性任务上评估了我们的代理，分别是：使用来自YCB和EGAD数据集的数百个物体的捡放操作、精确位置和方向的销插入操作以及操作各种定制环境变化的水龙头和把手。实证结果显示，我们的代理超过了自动领域随机化和基于视觉策略的最先进方法，获得了更好的泛化性能和样本效率。

主要内容概述：这段话讨论了在实体AI中发展可泛化的操作技能的重要性，并提出了快速运动适应（RMA）作为一种解决方案。研究者们通过深度感知开发出能够快速适应各种操作任务的代理，并在四个挑战性任务上进行了评估。结果表明，这些代理在泛化性能和样本效率方面优于现有方法。

Paper33 Multimodal Representation Learning by Alternating Unimodal Adaptation

摘要小结: 多元模态学习，它整合来自不同感觉模式的数据，在人工智能中起着关键作用。然而，现有的多元模态学习方法在处理某些模态在多元模态学习中显得更为主导的问题时常常遇到挑战，导致性能不佳。为了应对这一挑战，我们提出了MLA（带交替单模态适应的多元模态学习）。MLA通过将传统的联合多元模态学习过程转变为交替的单模态学习过程，从而最小化模态间的干扰。同时，它通过一个共享头部捕捉跨模态交互，该共享头部在不同模态间进行持续优化。这种优化过程由梯度修改机制控制，以防止共享头部丢失之前获取的信息。在推理阶段，MLA利用基于测试时不确定性的模型融合机制来整合多元模态信息。

以下主要内容概述：

翻译内容：

以下是主要内容：

翻译：

多模态学习，它整合了来自多种感觉模式的数据，在人工智能中扮演着核心角色。然而，现有的多模态学习方法常常在多模态学习过程中遇到一些模态比其他模态更为主导的挑战，导致性能次优。为了解决这个挑战，我们提出了MLA（带交替单模态适应的多模态学习）。MLA重新构建了传统的联合多模态学习过程，将其转化为交替的单模态学习过程，从而减少了模态间的干扰。同时，它通过共享头部捕捉跨模态交互，这个共享头部在不同模态间持续优化。这种优化过程通过梯度修改机制来控制，以防止共享头部丢失之前获得的信息。在推理阶段，MLA使用基于测试时不确定性的模型融合机制来整合多模态信息。

主要内容概述：