CVPR2024 论文速读1-50

Paper1 Unmixing Diffusion for Self-Supervised Hyperspectral Image Denoising

摘要小结: 高光谱图像(HSIs)在医学、农业和工业等各个领域都有广泛的应用。然而,由于窄带光谱滤波,获取高信噪比HSI构成了一项挑战。因此,HSI去噪的重要性相当大,特别是对于快照式高光谱成像技术。尽管大多数先前的HSI去噪方法是监督式的,但为不同场景的高光谱相机和扫描参数创建监督训练数据集是不切实际的。在这项工作中,我们提出了Diff-Unmix,这是一种使用扩散去噪生成模型的自监督HSI去噪方法。具体而言,Diff-Unmix通过融合光谱解混和条件丰度生成,应对恢复噪声退化的HSI的挑战。首先,它采用了一种可学习的基于块的光谱解混策略,辅以纯变压器骨干网络。然后,我们引入了一个自监督生成扩散网络,以增强从光谱解混块中的丰度图。该网络有效地重建了无噪声的解混概率分布,从而减轻了这些组件中的噪声引起的退化。最后,通过将扩散调整后的丰度图与光谱端元混合,通过解混重建重建了HSI。在模拟和真实噪声数据集上的实验结果表明,Diff-Unmix达到了最先进的性能。

主要内容概述:
这篇研究论文介绍了一种名为Diff-Unmix的自监督高光谱图像(HSI)去噪方法。该方法针对获取高信噪比HSI的挑战,采用了一种新的策略,结合了光谱解混和条件丰度生成。Diff-Unmix利用可学习的基于块的光谱解混和基于变压器的网络结构,并通过自监督生成扩散网络来改善丰度图的质量。该方法在模拟和真实数据集上均展示了出色的去噪性能。

Paper2 Seeing the World through Your Eyes

摘要小结: 这段话的中文翻译是:“人眼的反射性质是一个被低估了的信息源,它反映了我们周围世界的样子。通过成像一个移动的人的眼睛,我们可以捕捉到相机直接视线之外的场景的多个视图,这些视图是通过眼睛的反射实现的。在本文中,我们使用包含眼睛反射的肖像图像来重建相机视线之外的辐射场。这个任务具有挑战性,因为1)准确估计眼睛姿态的困难,以及2)虹膜纹理和场景反射的纠缠外观。为了解决这些问题,我们的方法共同优化了角膜姿态、描绘场景的辐射场以及观察者的眼睛虹膜纹理。此外,我们还提出了一个关于虹膜纹理的正则化先验,以提高场景重建的质量。通过在合成和现实世界的捕捉上进行各种实验,这些捕捉包括不同眼睛颜色和光照条件下的人,我们证明了我们使用角膜反射恢复辐射场的方法的可行性。”

主要内容概述:这段话讲述了一项研究,该研究通过分析人眼反射来重建相机直接视线之外的景象。研究面临的挑战包括准确估计眼睛姿态和区分虹膜纹理与场景反射。研究提出了一种方法,通过优化角膜姿态、辐射场和虹膜纹理来重建场景。此外,还使用了虹膜纹理的正则化先验来提高重建质量。实验结果表明,该方法在不同眼睛颜色和光照条件下均具有可行性。

Paper3 DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery

摘要小结: 这段话的中文翻译如下:

由于在严重遮挡下提取有效图像特征存在困难,遮挡人体的网格恢复对现有方法提出了挑战。在本文中,我们介绍了DPMesh,这是一个用于遮挡人体网格恢复的创新框架,它利用了预训练的文本到图像扩散模型中嵌入的关于对象结构和空间关系的深刻知识。与之前依赖传统骨干网络进行普通特征提取的方法不同,DPMesh无缝集成了预训练的去噪U-Net与强大的先验作为其图像骨干,并执行单步推理以提供遮挡感知信息。为了增强对遮挡姿态的感知能力,DPMesh通过条件注入引入了审慎的指导,这产生了从2D观测到的去噪U-Net的有效控制。此外,我们探索了一种专门的有噪声关键点推理方法,以减轻遮挡和拥挤场景引起的干扰。这一策略完全释放了扩散先验的感知能力,从而提高了准确度。广泛的定量和定性实验证实了我们的框架的有效性,我们在遮挡特定和标准数据集上均优于现有技术,突显了其在遮挡和拥挤场景等具有挑战性的情况下实现精确和健壮的3D人体网格恢复的能力。代码可在 https://github.com/EternalEvan/DPMesh 获得。

主要内容概述:

这段话介绍了一篇论文中提出的DPMesh框架,该框架用于解决遮挡人体网格恢复的问题。DPMesh利用预训练的文本到图像扩散模型中的知识,集成了去噪U-Net作为图像骨干,并通过单步推理提供遮挡感知信息。它还使用了一种专门的噪声关键点推理方法。实验证明,DPMesh在遮挡和标准数据集上均优于现有技术,能够实现精确和健壮的3D人体网格恢复。

Paper4 Ungeneralizable Examples

摘要小结: 当代深度学习模型的训练严重依赖公开可用的数据,这带来了未授权访问在线数据的危险,并引发了人们对数据隐私的担忧。目前创建不可学习数据的方法涉及融入小的特殊设计噪声,但这些方法严格限制了数据可用性,忽视了其在授权场景中的潜在用途。在本文中,我们将不可学习数据的概念扩展到条件数据可学习性,并引入了不可泛化示例(UGEs)。UGEs对授权用户表现出可学习性,同时保持对潜在黑客的不可学习性。保护者定义了授权网络并优化UGEs,以匹配原始数据及其不可泛化版本的梯度,确保可学习性。为了防止未授权学习,UGEs通过在公共特征空间中最大化指定的距离损失进行训练。此外,为了进一步保护授权方免受潜在攻击,我们引入了额外的反蒸馏优化。

主要内容概述:
这段话讨论了深度学习模型训练中的数据隐私问题,并提出了不可泛化示例(UGEs)的概念。这个概念旨在让数据对授权用户可学习,但对未授权用户(如黑客)不可学习。文章还介绍了如何通过特定方法来保护数据,并实验证明了UGEs框架在多个数据集和网络上保留数据可用性。以下是关键点:

  • 数据隐私和未授权访问的风险。
  • UGEs的引入,它们对授权用户和未授权用户的不同表现。
  • 如何优化UGEs以匹配特定需求。
  • 实验结果证明该方法的有效性。

Paper5 LaneCPP: Continuous 3D Lane Detection using Physical Priors

摘要小结: 单目3D车道检测已成为自动驾驶领域的一个基本问题,它包括寻找路面和定位车道标线的任务。一个主要的挑战在于找到一个灵活且健壮的线表示方法,能够建模复杂的车道结构,同时避免不可预测的行为。虽然之前的方法依赖于完全数据驱动的方法,但我们引入了一种新颖的方法LaneCPP,它使用了一个连续的3D车道检测模型,利用关于车道结构和道路几何的物理先验知识。

以下是主要内容概述:

翻译内容:
单目3D车道检测已成为自动驾驶领域的一个基础性问题,其任务包括寻找道路表面和定位车道标线。主要的挑战在于需要一个灵活且健壮的线条表示方法,以建模复杂的车道结构,同时避免不可预测的行为。与前述方法不同,我们引入了一种新的方法LaneCPP,它采用了一个连续的3D车道检测模型,利用关于车道结构和道路几何的物理先验知识。

概述:

  • 文段介绍了一种新的方法LaneCPP。
  • LaneCPP使用物理先验知识来增强3D车道检测。
  • 方法能够建模复杂道路结构,同时保持健壮性。
    以下以下是具体内容:
  1. 方法优势:
  • LaneCPP通过以下方式展示健壮行为:物理约束被纳入正则化方案,可以解析地应用于参数表示。
  1. 先验知识整合:
  • 将关于道路几何的先验知识整合到3D特征空间中,通过建模几何感知空间特征,指导网络学习内部道路表面表示。
  1. 实验结果:
  • 实验展示了贡献的好处,并证明了使用先验知识使3D车道检测更加健壮的意义。
  • 结果显示,LaneCPP在F-Score和几何误差方面达到了最先进的性能。

Paper6 CityDreamer: Compositional Generative Model of Unbounded 3D Cities

摘要小结: 这段话的中文翻译是:3D城市生成是一个既令人向往又具有挑战性的任务,因为人类对城市环境中的结构扭曲更为敏感。此外,生成3D城市比3D自然场景更为复杂,因为与自然场景中相对一致的外观对象如树木相比,作为同一类别的建筑物体展现出更广泛的外观差异。为了应对这些挑战,我们提出了CityDreamer,这是一个专门为无限范围的3D城市设计的组合生成模型。我们的关键洞见是,3D城市生成应该是不同类型神经场的组合:1)各种建筑实例和2)背景元素,如道路和绿地。具体来说,我们采用了鸟瞰图场景表示,并为面向实例和面向元素的神经场采用体积渲染。生成哈希网格和周期位置嵌入作为场景参数化被定制,以适应建筑实例和背景元素的不同特性。此外,我们还贡献了一系列CityGen数据集,包括OSM和GoogleEarth,其中包含大量真实世界的城市图像,以增强生成的3D城市在布局和外观上的真实性。CityDreamer在生成逼真的3D城市以及在城市中进行局部编辑方面都取得了最先进的性能。

主要内容概述:这段话主要介绍了3D城市生成任务的挑战性,并提出了一种新的生成模型CityDreamer。该模型通过组合不同类型的神经场来生成3D城市,包括建筑实例和背景元素。作者还介绍了模型的具体实现方法,并提到他们贡献的数据集能够提高生成3D城市的真实性。最后指出,CityDreamer模型在生成逼真3D城市和局部编辑方面达到了先进性能。

Paper7 HEAL-SWIN: A Vision Transformer On The Sphere

摘要小结: 高分辨率广角鱼眼图像在机器人应用(如自动驾驶)中变得越来越重要。然而,由于在将图像投影到平面上的矩形网格时产生的投影和失真损失,使用普通的卷积神经网络或视觉变换器处理这类数据存在问题。我们引入了HEAL-SWIN变换器,它将天体物理学和宇宙学中使用的具有高度均匀性的分层等面积等纬度像素化(HEALPix)网格与分层移位窗口(SWIN)变换器相结合,从而产生一个高效且灵活的模型,能够训练高分辨率无失真球面数据。

以下主要内容概述:

翻译:
高分辨率宽角鱼眼图像对于机器人应用(如自主驾驶)越来越重要。但是,在将数据投影到平面上的矩形网格时,使用普通卷积神经网络或视觉变压器存在问题是由于投影和失真损失。我们引入了HEAL-SWIN变压器,它将天体物理学和宇宙学中使用的具有高度统一性的分层等面积等纬度像素化(HEALPix)网格与分层移位窗口(SWIN)变压器相结合。

主要内容概述:

  1. 问题陈述: 高分辨率鱼眼图像处理存在失真问题。
  2. 解决方案: 引入HEAL-SWIN变压器。
  3. 技术细节:
    • 结合HEALPix网格和SWIN变压器。
    • 使用HEALPix网格的嵌套结构进行高效处理。
  4. 性能展示: 在合成和真实汽车数据集以及其他图像数据集上展示了优越性能。
  5. 可用性: 代码公开可用。

以下是翻译:

翻译内容:
高分辨率的广角鱼眼图像对于机器人应用,比如自动驾驶来说越来越重要。然而,由于在将数据投影到平面上的矩形网格时引入了投影和失真损失,因此在这类数据上使用普通的卷积神经网络或视觉变换器存在问题。我们引入了HEAL-SWIN变换器,它将天体物理学和宇宙学中使用的具有高度均匀性的分层等面积等纬度像素化(HEALPix)网格与分层移位窗口(SWIN)变换器相结合,以产生一个高效且灵活的模型,能够训练高分辨率无失真的球面数据。在HEAL-SWIN中,利用HEALPix网格的嵌套结构来执行SWIN变换器的分块和窗口操作,使网络能够以最小的计算开销处理球面表示。我们在合成和实际的汽车数据集以及其他图像数据集上展示了我们模型在语义分割、深度回归和分类任务中的卓越性能。我们的代码是公开可用的。

Paper8 3D Paintbrush: Local Stylization of 3D Shapes with Cascaded Score Distillation

摘要小结: 我们介绍了3D Paintbrush技术,这是一种通过文本描述自动在网格上的局部语义区域进行纹理贴图的方法。我们的方法旨在直接在网格上操作,生成能够无缝集成到标准图形管线中的纹理贴图。我们选择同时生成一个定位图(指定编辑区域)和一个与其对应的纹理图。这种方法提高了定位和风格化的质量。为了增强纹理区域的细节和分辨率,我们利用级联扩散模型的多个阶段来监督我们的局部编辑技术,这些阶段从不同分辨率的图像中学习生成先验。我们的技术被称为级联得分蒸馏(CSD),以级联方式同时蒸馏多个分辨率的得分,实现对监督的粒度和全局理解的控制。我们展示了3D Paintbrush在多种形状上局部纹理不同语义区域的有效性。

概述:
这段话主要介绍了一种名为3D Paintbrush的技术,该技术能够通过文本描述自动为网格上的局部语义区域进行纹理贴图。技术亮点包括生成定位图和纹理图,以及使用级联得分蒸馏方法来提高纹理质量和分辨率。最后,作者展示了该技术在多种形状上的应用效果。

Paper9 Test-Time Linear Out-of-Distribution Detection

摘要小结: 分布外(OOD)检测旨在通过在输入样本与训练分布(分布内)显著偏离时触发警报,以解决神经网络的过度自信预测,这表明输出可能不可靠。当前的OOD检测方法探索各种线索来识别OOD数据,例如在特征空间、对数空间、梯度空间或原始图像空间中寻找不规则模式。令人惊讶的是,我们观察到在几个数据集上,当前OOD检测算法产生的OOD分数与网络特征之间存在线性趋势。我们进行了理论上的和实证的彻底调查,以分析和理解OOD检测中这种线性趋势的含义。本文提出了一种健壮的测试时间线性方法(RTL),在执行OOD检测时利用这种线性趋势,就像一个“免费的午餐”。通过使用简单的线性回归作为测试时间的适应,我们可以做出更精确的OOD预测。我们还提出了所提方法的在线变体,它取得了有希望的性能,并且更实用于真实应用。理论分析被提供以证明我们方法的有效性。在多个OOD数据集上的广泛实验表明,RTL对于OOD检测任务非常有效,显著改善了基础OOD检测器的结果。项目将可在 https://github.com/kfan21/RTL 上找到。

概述:
这段话主要讨论了OOD检测的目的和方法。它指出了当前OOD检测方法中存在的一个线性趋势,并提出了一个新的方法RTL,利用这种线性趋势进行更精确的OOD预测。同时,还提出了一个在线变体,并进行理论分析和实验验证了方法的有效性。

Paper10 Guided Slot Attention for Unsupervised Video Object Segmentation

摘要小结: 这段话的中文翻译如下:

无监督视频对象分割旨在分割视频序列中最突出的对象。然而,复杂背景和多个前景对象的存在使得这项任务充满挑战。为了解决这一问题,我们提出了一种引导槽注意力网络,以加强空间结构信息,获得更好的前景-背景分离。初始化时带有查询引导的前景和背景槽根据与模板信息的交互进行迭代优化。此外,为了提高槽-模板交互,有效地融合目标帧和参考帧的全局和局部特征,引入了K最近邻过滤和一个特征聚合变压器。所提出的模型在两个流行的数据集上取得了最先进的性能。此外,我们通过各种比较实验展示了所提模型在挑战性场景中的鲁棒性。

主要内容概述:

这段话主要讨论了无监督视频对象分割的挑战,并提出了一个解决方案。作者提出了一个引导槽注意力网络,这个网络能够加强空间结构信息,以实现更好的前景-背景分离。网络通过查询引导进行初始化,并通过与模板信息的交互进行优化。同时,还引入了K最近邻过滤和特征聚合变压器来提升性能。最后,该模型在两个数据集上取得了先进性能,并在挑战性场景中展示了鲁棒性。

Paper11 Unsupervised Blind Image Deblurring Based on Self-Enhancement

摘要小结: 这段话的中文翻译如下:

在图像去模糊方面,深度学习方法已经取得了显著的进展,尤其是在配对合成数据上监督模型表现出色。然而,现实世界的质量退化比合成数据集更为复杂,且在现实场景中获取配对数据构成了重大挑战。为了解决这些挑战,我们提出了一种新颖的基于自我增强的无监督图像去模糊框架。该框架在不需真实配对数据集的情况下逐步生成改进的伪锐利和模糊图像对,且生成的质量更高的图像对可用于提升重建器的性能。为了确保生成的模糊图像更接近真实模糊图像,我们提出了一种新的重退化主成分一致性损失,它使得生成低质量图像的主成分与从原始锐利图像重退化得到的图像的主成分相似。此外,我们引入了自我增强策略,显著提高了去模糊性能,而不会在推理过程中增加网络的计算复杂性。通过在多个现实世界模糊数据集上的大量实验,我们证明了我们的方法优于其他最先进的无监督方法。

主要内容概述:
这段话介绍了深度学习在图像去模糊领域的进展,指出了现实世界数据获取的挑战,并提出了一个基于自我增强的无监督图像去模糊框架。该框架能够生成高质量的伪图像对,并引入了新的损失函数和自我增强策略来提高去模糊性能,实验证明该方法优于其他无监督方法。

Paper12 Action Detection via an Image Diffusion Process

摘要小结: 行动检测旨在定位未剪辑视频中行动实例的起始点和结束点,并预测这些实例的类别。在这篇文章中,我们观察到行动检测任务的输出可以被表述为图像。因此,从一个新颖的角度出发,我们通过一个三图像生成过程来处理行动检测,通过我们提出的行动检测图像扩散(ADI-Diff)框架,生成起始点、结束点和行动类别预测的图像。此外,由于我们的图像与自然图像不同,展现出特殊属性,我们还进一步探索了离散行动检测扩散过程和行列转换器设计,以更好地处理它们的处理。我们的ADI-Diff框架在两个广泛使用的数据集上取得了最先进的结果。

主要内容概述:
这段话主要介绍了行动检测的研究目标,并提出了一种新的方法(ADI-Diff框架)来处理行动检测。该方法将行动检测的输出视为图像,并通过三图像生成过程进行处理。同时,作者还探索了特殊设计来处理这些图像的独特属性,最终在数据集上取得了优秀的结果。

Paper13 Programmable Motion Generation for Open-Set Motion Control Tasks

摘要小结: 在真实世界场景中的角色动画需要各种约束,如轨迹、关键帧、交互等。现有方法通常将单个或有限的约束集作为独立的控制任务处理。这些方法往往具有专门性,它们解决的问题很少是可扩展或可定制的。我们将这些视为闭集运动控制问题的解决方案。针对实际运动控制的复杂性,我们提出了并试图解决开放集运动控制问题。这个问题特点是开放且完全可定制的运动控制任务集。为此,我们引入了一个新的范式:可编程运动生成。

以下是对这段话的翻译和概述:

翻译:
真实世界场景中的角色动画需要诸如轨迹、关键帧、交互等各种各样的约束。现有的方法通常将单个或有限的这些约束作为独立的控制任务来处理。这些方法通常很专业,且它们解决的问题很少是可扩展或可定制的。我们将这些视为闭集运动控制问题的解决方案。为了应对实际运动控制的复杂性,我们提出了并尝试解决开放集运动控制问题。这个问题具有开放且完全可定制的运动控制任务集。为了解决这个问题,我们引入了一个新的范式:可编程运动生成。

概述:
主要内容是讨论在真实世界场景中,角色动画面临的运动控制问题。现有方法处理这些问题时存在局限性,因此作者提出了开放集运动控制问题,并引入了“可编程运动生成”的新范式。这个范式允许通过将任务分解为原子约束组合来定制运动控制任务,并通过优化来满足这些约束。实验表明,这种方法可以生成高质量的运动,并能够处理各种未见的任务,无需特定的数据收集或网络设计。此外,还观察到了新技能的出现和自动编程的实现。

Paper14 SCE-MAE: Selective Correspondence Enhancement with Masked Autoencoder for Self-Supervised Landmark Estimation

摘要小结: 自我监督的地标估计是一项具有挑战性的任务,它要求在无标注数据的情况下形成局部独特的特征表示,以识别稀疏的面部地标。以下是翻译和概述:

翻译:
自我监督的标志点估计是一项挑战性的任务,需要在没有标注数据的情况下形成局部明显的特征表示来识别稀疏的面部标志点。为了应对这一任务,现有的最先进(SOTA)方法(1)从骨干网络中提取粗糙特征,这些骨干网络是用实例级自我监督学习(SSL)范式训练的,忽略了任务的密集预测性质;(2)将它们聚合成内存密集型的超列结构;(3)监督轻量级投影网络,简单地建立所有空间特征对之间的完整局部对应关系。在本文中,我们介绍了SCE-MAE框架,该框架(1)利用MAE,这是一种区域级SSL方法,自然更适合地标预测任务;(2)在原始特征图上操作,而不是在昂贵的超列上;(3)采用了一种对应近似和细化块(CARB),它使用简单的密度峰值聚类算法和我们提出的局部性约束排斥损失,直接精炼仅选定的局部对应关系。我们通过大量实验证明,SCE-MAE非常有效且鲁棒,在地标匹配任务上超过现有SOTA方法20%-44%,在地标检测任务上超过9%-15%。

概述:
这段话主要讨论了自我监督地标估计的挑战,并介绍了一种新的框架SCE-MAE。这个框架通过使用更适合地标预测任务的区域级SSL方法,操作原始特征图,并采用特定的块(CARB)来精炼局部对应关系,从而克服了现有SOTA方法的不足。实验证明,SCE-MAE在性能上显著优于现有方法。

Paper15 LAKE-RED: Camouflaged Images Generation by Latent Background Knowledge Retrieval-Augmented Diffusion

摘要小结: 伪装视觉感知是一个重要的视觉任务,具有众多实际应用。由于收集和标注成本高昂,这个领域面临的主要瓶颈是数据集的物种类别仅限于少数目标物种。然而,现有的伪装生成方法需要手动指定背景,因此无法以低成本扩展伪装样本多样性。在本文中,我们提出了一种潜在背景知识检索增强的扩散(LAKE-RED)用于伪装图像生成。

主要内容概述:

  1. 翻译内容如下:

伪装视觉感知是一个重要的视觉任务,具有众多的实际应用。由于昂贵的收集和标注成本,这个社区在主要瓶颈上挣扎,即其数据集的物种类别仅限于少数目标物种。然而,现有的伪装生成方法需要手动指定背景,因此无法以低成本方式扩展伪装样本多样性。在本文中,我们提出了一种潜在背景知识检索增强的扩散(LAKE-RED)用于伪装图像生成。

以下是主要内容:

  • (1) 我们首次提出了一种不需要接收任何背景输入的伪装生成范式。
  • (2) 我们的LAKE-RED是首个具有可解释性的知识检索增强伪装生成方法,我们提出了一种将知识检索和推理增强明确分离的想法,以缓解特定任务的挑战。
  • (以下内容继续:

以下是以下内容:

  1. 实验结果表明,我们的方法优于现有方法,能生成更真实的伪装图像。

以下是概述:

以下是概述:

  1. 文段主要内容:
  • 文章讨论了伪装视觉感知的重要性,并指出了当前面临的挑战。
  • 提出了一种新的方法(LAKE-RED)用于伪装图像生成,无需背景输入。
  • 这是首个具有可解释性的方法,且不受特定前景目标或背景的限制。
  • 实验证明,该方法优于现有方法。

Paper16 TIGER: Time-Varying Denoising Model for 3D Point Cloud Generation with Diffusion Process

摘要小结: 最近,扩散模型作为一种新的强大的生成方法,在3D点云生成任务中崭露头角。然而,很少有研究探讨扩散模型架构对3D点云的影响,大多数依赖于为2D图像开发的典型UNet模型。受到Transformers广泛应用的启发,我们研究了卷积(来自UNet)和注意力(来自Transformers)的互补作用。我们发现,它们各自的重要性会随着扩散过程中的时间步长而变化。在早期阶段,注意力的影响较大,因为Transformers被发现在更快地生成整体形状方面更有效;而在后期阶段,当添加细节时,卷积对生成的点云局部表面质量的影响开始增大。

以下主要内容概述:

翻译与概述:

  • 扩散模型成为3D点云生成的新方法。
  • 研究了UNet模型和Transformers的影响。
    以下是详细内容:

翻译:
最近,扩散模型作为一种新的强大的生成方法,在3D点云生成任务中崭露头角。然而,很少有研究探讨扩散模型架构在3D点云中的作用,这些研究依赖于为2D图像开发的典型UNet模型。受到Transformers广泛采用的启发,我们研究了卷积(来自UNet)和注意力(来自Transformers)的互补角色。我们发现它们的重要性会根据扩散过程中的时间步长而变化。在早期阶段,注意力的影响巨大,因为Transformers更快地生成整体形状;在后期阶段,当添加细节时,卷积对生成的点云局部表面质量的影响开始增大。

基于这一观察,我们提出了一种随时间变化的两流去噪模型,结合了卷积层和Transformer块。我们从每个时间步生成一个可优化的掩码,以重新权衡全局和局部特征,获得随时间变化融合特征。实验上,我们证明了我们提出的方法在视觉质量和多样性方面优于其他先进方法。

概述:
该段话主要讨论了在3D点云生成中,扩散模型的新应用,并且特别研究了UNet和Transformers的结合使用。研究发现了在扩散过程中,卷积和注意力的作用随时间步长变化,并基于此提出了新的模型,该模型在实验中表现优于其他方法。以下是代码可用性的提及。

Paper17 ConTex-Human: Free-View Rendering of Human from a Single Image with Texture-Consistent Synthesis

摘要小结: 在这项工作中,我们提出了一种方法,以自由视角的方式解决从单个图像渲染3D人体的挑战。一些现有方法可以通过使用可泛化的像素对齐隐式场来重建人体的纹理网格,或者使用2D扩散模型作为指导,结合得分蒸馏采样(SDS)方法将2D图像提升到3D空间。然而,可泛化的隐式场往往导致过于平滑的纹理场,而SDS方法往往会导致与输入图像纹理不一致的新视角。在本文中,我们引入了一种纹理一致的背面合成方法,可以通过深度引导的互自注意力将参考图像内容传递到背面视图。利用这种方法,我们可以从单个图像实现高保真且纹理一致的人体渲染。此外,为了减轻侧面区域出现的颜色失真,我们提出了一种结合合成背面纹理的可见性感知块一致性正则化。在真实和合成数据上进行的实验证明了我们方法的有效性,并显示我们的方法优于之前的基线方法。

主要内容概述:
本文提出了一种从单个图像以自由视角渲染3D人体的方法,解决了现有方法的纹理问题和颜色失真。特别地,提出了一种纹理一致的背面合成方法,并通过实验证明了该方法的有效性。

Paper18 UFineBench: Towards Text-based Person Retrieval with Ultra-fine Granularity

摘要小结: 这段话的中文翻译如下:

现有的基于文本的人体检索数据集通常具有相对粗粒度的文本注释。这阻碍了模型理解实际情景中查询文本的细粒度语义。为了解决这一问题,我们贡献了一个新的基准,名为UFineBench,用于超细粒度的基于文本的人体检索。首先,我们构建了一个名为UFine6926的新数据集。我们收集了大量的人体图像,并为每张图像手动注释了两个详细的文本描述,平均每个描述80.8个单词。平均单词数量是之前数据集的三到四倍。除了标准的领域内评估外,我们还提出了一种更符合真实情景的特殊评估范式。它包含一个名为UFine3C的新评估集,涵盖跨领域、跨文本粒度和跨文本风格,以及一个用于准确测量检索能力的新评估指标,名为平均相似度分布(mSD)。此外,我们提出了CFAM,这是一种针对超细粒度文本的基于文本的人体检索更高效的算法。它通过采用共享的跨模态粒度解码器和硬负匹配机制来实现细粒度挖掘。在标准领域内评估中,CFAM在各种数据集上均取得了有竞争力的性能,特别是在我们的超细粒度UFine6926上。

以下是主要内容概述:

  • 文章指出现有数据集的文本注释较为粗粒度,限制了模型在真实场景中的表现。
  • 提出了一个名为UFineBench的新基准,用于超细粒度的基于文本的人体检索。
  • 构建了新的数据集UFine6926,包含详细的文本描述。
  • 提出了新的评估范式和评估指标。
  • 提出了CFAM算法,专门针对超细粒度文本的人体检索。
  • 实验结果显示,CFAM在多个数据集上表现优异,特别是在UFine6926上。

数据集和代码将公开可用。

Paper19 Efficient Hyperparameter Optimization with Adaptive Fidelity Identification

摘要小结: 超参数优化和神经架构搜索在获取最先进的机器学习模型方面非常强大,其中贝叶斯优化(BO)作为一种主流方法脱颖而出。将BO扩展到多保真度设置是这一领域的一个新兴研究课题,但面临着为每个超参数配置确定合适保真度的挑战,以适应替代模型。为了应对这一挑战,我们提出了一种名为FastBO的多保真度BO方法,它在自适应地为每个配置决定保真度方面表现出色,并确保了高效的性能和资源使用。这些优势是通过我们提出的基于每个配置的高效点和饱和点概念的技术实现的,这些点可以从早期观察到的配置的实证学习曲线中获得。大量实验表明,FastBO在任何时间点的性能和效率在识别高质量配置和架构方面都具有优势。我们还展示了我们的方法为将任何单一保真度方法扩展到多保真度设置提供了一种方式,强调了我们的方法的广泛适用性。

主要内容概述:
这段话介绍了贝叶斯优化在超参数优化和神经架构搜索中的重要性,并提出了一种新的多保真度BO方法FastBO。FastBO在为每个配置决定保真度方面表现出色,并通过实验展示了其在性能和效率方面的优势。此外,该方法还能扩展任何单一保真度方法到多保真度设置。

Paper20 ASH: Animatable Gaussian Splats for Efficient and Photoreal Human Rendering

摘要小结: 这段话的中文翻译如下:

实时渲染逼真且可控的人类头像在计算机视觉和图形学中占有基石地位。虽然神经隐式渲染的最新进展为数字头像的实时性能解锁了前所未有的逼真效果,但这种效果大多仅针对静态场景进行了展示。为了解决这一问题,我们提出了ASH,一种用于实时渲染动态人体的可动画高斯涂抹方法。我们将着衣人体参数化为可动画的3D高斯函数,可以有效地涂抹到图像空间以生成最终渲染。然而,在3D空间中简单地学习高斯参数在计算上构成了严重挑战。相反,我们将高斯函数附加到可变形角色模型上,并在2D纹理空间中学习它们的参数,这使得可以利用高效的2D卷积架构,轻松地随所需的高斯数量进行扩展。

主要内容概述:

这段话介绍了一种名为ASH的新方法,该方法用于实时渲染逼真且动态的人类头像。ASH采用了一种可动画的高斯涂抹方法,并通过在2D纹理空间学习参数来克服计算挑战。文章还提到,该方法在对比测试中优于现有的实时方法,并且结果与离线方法相当或更好。

Paper21 Focus on Hiders: Exploring Hidden Threats for Enhancing Adversarial Training

摘要小结: 这段话的中文翻译如下:

对抗性训练通常被表述为一个最小-最大问题,然而只关注最糟糕的对抗性样本会导致模型的交替重复性混淆,即以前成功防御或正确分类的样本在后续的对抗性训练中可能不再可防御或准确分类。我们将这类不可忽视的样本称为“隐匿者”,它们揭示了通过对抗性训练获得的安全区域内的隐藏高风险区域,并阻止模型找到真正的最坏情况。我们要求模型在防御对抗性样本时防止出现隐匿者,以同时提高准确性和鲁棒性。通过对对抗性训练的最小-最大优化问题进行重新思考和重新定义,我们提出了一种称为隐匿者聚焦对抗性训练(HFAT)的广义对抗性训练算法。HFAT引入了迭代进化优化策略来简化优化问题,并使用辅助模型有效地揭示隐匿者,结合了标准对抗性训练和预防隐匿者的优化方向。此外,我们还引入了一种自适应加权机制,使模型能够在不同的训练阶段自适应地在对抗性样本和隐匿者之间调整其关注点。我们通过大量实验证明了我们方法的有效性,并确保HFAT能够提供更高的鲁棒性和准确性。我们将在发表时公布源代码。

主要内容概述:
这段话讨论了对抗性训练中的一个问题,即仅关注最严重的对抗性样本可能导致模型在某些样本上的性能不稳定。文章定义了这些可能导致问题的样本为“隐匿者”,并提出了一种新的对抗性训练方法——隐匿者聚焦对抗性训练(HFAT)。HFAT旨在通过迭代进化优化策略和辅助模型来有效识别和处理这些隐匿者,同时引入自适应加权机制来平衡训练过程中的关注点。实验证明,这种方法能够提高模型的鲁棒性和准确性。

Paper22 ArtAdapter: Text-to-Image Style Transfer using Multi-Level Style Encoder and Explicit Adaptation

摘要小结: 这段话的中文翻译如下:

本工作介绍了一种变革性的文本到图像(T2I)风格迁移框架ArtAdapter,它超越了传统对色彩笔触和对象形状的限制,捕捉到如构图和独特的艺术表达等高级风格元素。通过将多级风格编码器与我们所提出的显式适应机制相结合,ArtAdapter在风格迁移中实现了前所未有的保真度,确保与文本描述紧密对齐。此外,引入辅助内容适配器(ACA)有效地将内容与风格分离,减轻了从风格参考中借用内容的问题。此外,我们新颖的快速微调方法可以进一步提高零样本风格表示,同时减轻过拟合的风险。综合评估证实,ArtAdapter超越了当前最先进的方法。

主要内容概述:

这段话主要介绍了一种名为ArtAdapter的文本到图像风格迁移框架。这个框架能够捕捉高级风格元素,并通过多级风格编码器和显式适应机制实现高保真的风格迁移。同时,通过引入辅助内容适配器,有效分离内容和风格。此外,一种新颖的快速微调方法也被提出,以提高风格表示并降低过拟合风险。最后,评估显示ArtAdapter优于当前的最先进方法。

Paper23 GoodSAM: Bridging Domain and Capacity Gaps via Segment Anything Model for Distortion-aware Panoramic Semantic Segmentation

摘要小结: 这篇文章探讨了新颖且具有挑战性的问题:如何在不需任何标注数据的情况下,将新兴的Segment Anything Model (SAM)——展现出令人印象深刻的零样本实例分割能力——的知识转移到学习一个紧凑的全景语义分割模型,即学生模型。由于SAM无法提供语义标签,且SAM与学生模型之间存在较大的能力差距,这带来了相当大的挑战。为此,我们提出了一个名为GoodSAM的新框架,引入了一个教师助手(TA)来提供与SAM集成的语义信息,以生成集合日志its来实现知识转移。具体来说,我们提出了一个扭曲感知矫正(DAR)模块,首先通过强加预测级别的一致性和边界增强来解决全景图像的扭曲问题,这微妙地提高了TA对全景图像的预测能力。以下是主要内容概述:

翻译内容:
本文解决了一个新的且有挑战性的问题:如何在不需要任何标注数据的情况下,将新兴的Segment Anything Model (SAM)的知识转移到学习一个紧凑的全景语义分割模型(即学生模型)。这带来了重大挑战,因为SAM无法提供语义标签,且SAM与学生模型之间存在较大的能力差距。为此,我们提出了一个名为GoodSAM的新框架,引入教师助手(TA)来提供语义信息,并与SAM结合生成集合日志its以实现知识转移。

主要内容概述:

  1. 文章提出GoodSAM框架。
  2. 引入TA来提供语义信息。
  3. DAR模块解决全景图像扭曲问题。
  4. DAR合并SAM和TA的预测,获取更可靠的集合日志its。
  5. 引入多级知识适应(MKA)模块进行知识转移。

以下继续翻译:

具体做法:
我们提出了一个DAR模块,它合并了一个跨任务互补融合块,以自适应地合并SAM和TA的预测,以获得更可靠的集合日志its。此外,我们引入了MKA模块,有效地将多级特征知识从TA和集合日志its转移到学习一个紧凑的学生模型。

实验结果:
在两个基准测试上的大量实验表明,我们的GoodSAM在mIoU上比现有最佳(SOTA)领域适应方法提高了惊人的+3.75%。此外,我们最轻量级的模型仅用3.7M参数就达到了与SOTA方法相当的性能。

Paper24 DYSON: Dynamic Feature Space Self-Organization for Online Task-Free Class Incremental Learning

摘要小结: 在这篇文章中,我们关注的是一个具有挑战性的在线任务自由类增量学习(OTFCIL)问题。不同于现有方法,它们从数据流中持续学习特征空间,我们为OTFCIL提出了一个新颖的计算和对接范式。首先,它计算一个最优几何结构,即类原型分布,用于对现有类进行分类,并在新类出现时更新它,然后通过将特征空间与最优几何结构对齐来训练DNN模型。为此,我们开发了一种新颖的动态神经崩溃(DNC)算法来计算和更新最优几何结构。DNC在新类出现时扩展几何结构,而不会损失几何最优性,并保证旧类原型的漂移距离有一个明确的上限。

以下主要内容概述:

翻译:

在这篇文章中,我们集中研究了一个具有挑战性的在线任务自由类增量学习(OTFCIL)问题。与现有的从数据流中持续学习特征空间的方法不同,我们为OTFCIL提出了一个新颖的计算和对接范式。它首先计算一个最优几何,即类原型分布,用于对已有类别进行分类,并在新类别出现时更新它,然后通过将其特征空间与最优几何对齐来训练一个DNN模型。

概述:

以下是主要内容:

  1. 文章讨论了OTFCIL问题。
  2. 提出了一个计算和对接范式。
  3. 使用DNC算法来计算和更新最优几何。
    以下是以下内容:

主要内容:

  • 文章提出的方法:

以下是方法:

  • DNC算法能够处理新类出现,保持几何最优性。
  • 提出了DYSON方法,包含三个主要组件。
  • 实验结果显示DYSON方法的效率和优越性。

以下是对以下内容的概述:

概述:

  • 文章提出了一种新的学习方法,针对OTFCIL问题。
    以下是以下部分:

以下是翻译和概述:

翻译:
本文提出了一种针对OTFCIL的新方法,以下是关键点:

概述:

  • 文章提出的方法与传统方法不同,以下是特点:
  • 使用DNC算法。
  • DYSON方法包含三个组件。
  • 实验结果支持该方法的有效性。

以下是最重要的部分:

以下是翻译:

在这篇文章中,我们关注了一个翻译和概述如下的问题:

本文介绍了以下内容:

本文主要讨论了以下内容:

本文的重点是:

以下是翻译:

这篇文章中,我们专注于以下问题:

以下是概述:

以下是文章的概述:

在这篇文章中,我们探讨了以下问题,并提出了以下方法:

以下是详细内容:

以下是文章的核心内容:

以下是翻译和概述:

以下是翻译:

在这篇文章中,我们关注了一个具有挑战性的问题,以下是方法:

以下是概述:

文章提出了一种新的学习范式,以下是实验结果和贡献。以下是以下内容:

以下是具体翻译:

在这篇论文中,我们专注于一个论文的主要内容和翻译如下:

以下是具体概述:

  • 提出了一种新的计算和对接范式。

  • DNC算法用于处理几何结构。

  • DYSON方法包含三个部分,实验证明有效。以下是代码提供信息:

  • 代码在补充材料中提供。

Paper25 Streaming Dense Video Captioning

摘要小结: 理想密集视频字幕模型应该能够处理长时间的输入视频,预测丰富详细的文本描述,并在处理完整个视频之前生成输出。然而,当前最先进的模型仅处理固定数量的降采样帧,并在观看完整视频后进行一次完整预测。我们提出了一个流式密集视频字幕模型,包含两个新颖组件:首先,我们提出了一种基于聚类输入标记的新型内存模块,该模块可以处理任意长时间的视频,因为内存大小是固定的。其次,我们开发了一种流式解码算法,使我们的模型能够在处理完整个视频之前进行预测。我们的模型实现了这种流式能力,并在三个密集视频字幕基准测试中显著提升了最先进水平:ActivityNet、YouCook2和ViTT。以下是翻译:

翻译:
理想的密集视频字幕模型——预测视频中时间上定位的字幕——应该能够处理长输入视频,预测丰富的详细文本描述,并能在处理完整个视频之前生成输出。然而,当前最先进的技术模型仅处理固定数量的降采样帧,并在看到整个视频后进行一次完整的预测。我们提出了一个流式密集视频字幕模型,其中包括两个新颖组件:首先,我们提出了一种基于聚类输入令牌的新型内存模块,该模块可以处理任意长的视频,因为内存是固定大小的。其次,我们开发了一种流式解码算法,使我们的模型在处理完整个视频之前就能进行预测。

概述主要内容:
本文介绍了一个新的流式密集视频字幕模型,该模型能够处理长时间视频,并在观看完整视频前进行预测。模型包括两个创新点:一个基于聚类的内存模块和一个流式解码算法。该模型在多个基准测试中显著提升了性能。

Paper26 Rethinking Inductive Biases for Surface Normal Estimation

摘要小结: 尽管对精确表面法线估计模型的需求日益增长,现有方法仍使用通用密集预测模型,采用与其他任务相同的归纳偏置。在本文中,我们讨论了表面法线估计所需的归纳偏置,并提议(1)利用每个像素的光线方向,(2)通过学习相邻表面法线之间的相对旋转来编码它们之间的关系。所提出的方法可以为任意分辨率和宽高比的具有挑战性的野外图像生成清晰且分段平滑的预测。与最近基于ViT的先进模型相比,尽管我们的方法在数量级更小的数据集上进行训练,但显示出更强的泛化能力。代码可在 https://github.com/baegwangbin/DSINE. 获得。

主要内容概述:
这段话主要讨论了表面法线估计的问题,指出现有方法使用通用模型,并提出了一种新的方法。新方法利用像素光线方向和相邻表面法线的关系,能够为复杂图像提供更好的预测。此外,该方法在较小数据集上训练后,展现出了比现有先进模型更强的泛化能力。

Paper27 Event-based Structure-from-Orbit

摘要小结: 事件传感器提供高时间分辨率的视觉感知,这使得它们非常适合感知快速视觉现象,而不会受到运动模糊的影响。在机器人技术和基于视觉的导航的某些应用中,需要三维感知一个在静态摄像机前进行圆形或旋转运动的物体,例如恢复物体的角速度和形状。这种设置相当于观察一个静态物体与一个绕轨道运动的摄像机。在本文中,我们提出了基于事件的结构从轨道(eSfO)方法,目标是同时重建一个快速旋转物体从静态事件摄像机观察到的三维结构,并恢复相机的等效轨道运动。

以下是主要内容概述:

翻译内容:
事件传感器提供了高时间分辨率的视觉感知,这使得它们非常适合感知快速视觉现象,不会受到运动模糊的影响。以下是主要内容:

概述:

  • 文章讨论了事件传感器在感知快速运动中的应用。
    以下是详细内容:
  1. 内容翻译:

事件传感器提供了高时间分辨率的视觉感知,这使得它们非常适合感知快速视觉现象,而不会受到运动模糊的影响。机器人技术和基于视觉导航的某些应用需要三维感知一个在静态摄像机前进行圆形或旋转运动的物体,例如恢复物体的角速度和形状。这个设置相当于观察一个静态物体与一个绕轨道运动的摄像机。在本文中,我们提出了基于事件的结构从轨道(eSfO)方法,旨在同时进行以下两项工作:

  1. 概述:
  • 提出了三个主要贡献:
    • 开发了一种新的基于时空聚类和数据关联的事件特征跟踪器,可以更好地跟踪事件数据中有效特征的正螺旋轨迹。
    • 特征轨迹随后被送入新颖的基于因子图的结构从轨道后端,计算轨道运动参数(例如,旋转速率相对旋转轴),以最小化重投影误差。
    • 为了评估,他们制作了一个新的事件数据集,包含在旋转运动下的物体。与地面真相的比较表明了eSfO的有效性。

Paper28 LED: A Large-scale Real-world Paired Dataset for Event Camera Denoising

摘要小结: 事件相机在捕捉动态场景信息方面具有显著优势,但容易受到噪声干扰,尤其是在低阈值和低照度等挑战性条件下。然而,大多数现有研究都集中在温和情况下,这限制了事件相机在现实复杂场景中的应用。为了克服这一限制并推动领域发展,我们构建了一个新的配对真实世界事件去噪数据集(LED),包括3K个序列,总时长18K秒,高分辨率(1200*680)的事件流,并且与其他数据集相比具有三个显著特点:多样的噪声水平和场景、大规模高分辨率和高质量的真实数据(GT)。具体来说,它包含阶梯参数和变化的光照,以及多种场景。

以下是主要内容概述:

翻译内容:

  • 事件相机在动态场景捕获上有优势,但噪声干扰问题严重。
  • 现有研究多集中在温和情况,限制了其在复杂场景的应用。
  • 构建了新的数据集LED,包含特点如多样噪声水平、大规模高分辨率等。
  • 提出了一个新颖有效的去噪框架(DED),使用同质双事件生成GT,更好地区分噪声。
  • 设计了一个受生物启发的基线,利用动态阈值的Leaky-Integrate-and-Fire (LIF)神经元实现准确去噪。

概述:

这段话主要是说,尽管事件相机在捕获动态场景上很厉害,但噪声问题特别是在恶劣条件下是个问题。现有研究不够全面,因此作者构建了一个新的数据集,并提出了一种新的去噪框架和一个生物启发的基线,以实现更准确的去噪,实验结果证明了其有效性。

Paper29 Fair Federated Learning under Domain Skew with Local Consistency and Domain Diversity

摘要小结: 联邦学习(FL)已经成为一种新的保护隐私的协作训练范式。在领域偏斜的情况下,当前的FL方法存在偏见,并面临两个公平性问题。1)参数更新冲突:客户端之间的数据差异导致参数重要性的变化和更新方向的不一致。这两种差异可能导致重要参数被主导更新的不重要参数所淹没,因此导致性能较低的客户端性能显著下降。2)模型聚合偏差:现有的FL方法引入了不公平的权重分配,忽视了领域多样性,这导致模型收敛目标偏差和领域间的性能差异。我们发现联邦学习中存在明显的方向性更新一致性,并提出了一种新颖的框架来解决上述问题。首先利用发现的特性,我们选择性地丢弃不重要的参数更新,以防止性能较低的客户端被不重要的参数淹没,从而实现更公平的泛化性能。其次,我们提出了一种公平的聚合目标,以防止全局模型偏向某些领域,确保全局模型持续与无偏模型对齐。提出的方法是通用的,可以与其他现有的FL方法结合使用以提高公平性。在Digits和Office-Caltech上的全面实验证明了我们方法的高公平性和性能。

概述:
这段话主要讨论了联邦学习(FL)在领域偏斜情况下存在的公平性问题,包括参数更新冲突和模型聚合偏差。作者发现了一种方向性更新一致性,并提出了一种新框架来解决这些问题,旨在提高公平性和性能。

Paper30 Activity-Biometrics: Person Identification from Daily Activities

摘要小结: 在这项工作中,我们研究了一个新颖的问题,即在进行日常活动时进行人员识别。由于时空复杂性和外观偏差(如衣物颜色和背景)的存在,从RGB视频中学习生物特征是具有挑战性的。我们提出了ABNet这一新颖框架,它利用生物特征和非生物特征的可分离性,从日常活动中有效地进行人员识别。ABNet依赖于一个无偏见的教师来从RGB视频中学习生物特征,并借助生物特征扭曲显式地分离非生物特征。此外,ABNet还利用活动先验进行生物特征识别,这是通过联合生物特征和活动学习实现的。我们对提出的 方法在五个不同数据集上进行了全面评估,这些数据集来源于现有的活动识别基准。此外,我们还广泛地将ABNet与现有的人员识别工作进行对比,并在所有五个数据集上展示了其在基于活动的生物识别方面的有效性。以下是主要内容概述:

翻译内容:
在这项工作中,我们研究了一个新问题,专注于在执行日常活动时进行人员识别。代码和数据集可以在这里访问:https://github.com/sacrcv/Activity-Biometrics/.

主要内容概述:

  • 研究问题:日常活动时的人员识别
  • 挑战:从RGB视频学习生物特征的难度
  • 解决方案:提出ABNet框架,利用特征分离
  • ABNet特点:无偏见教师、活动先验利用
  • 评估:在五个数据集上进行全面评估,与现有工作对比

以下是翻译:

本工作中,我们探讨了一个新问题,该问题专注于在执行日常活动时进行人员识别。由于时空复杂性和外观偏差(如衣物颜色和背景)的存在,从RGB视频中学习生物特征构成挑战。我们提出了ABNet这一新颖框架,它通过分离生物特征和非生物特征,从而有效地从日常活动中进行人员识别。ABNet依靠一个无偏见的教师来从RGB视频中学习生物特征,并借助生物特征扭曲明确分离非生物特征。此外,ABNet还利用活动先验进行生物识别,这是通过生物特征和活动的联合学习实现的。我们对这一提议的方法在五个不同的数据集上进行了全面评估,这些数据集来源于现有的活动识别基准。此外,我们还广泛比较了ABNet与现有的人员识别工作,并在所有五个数据集上展示了其在基于活动的生物识别方面的有效性。

Paper31 Z*: Zero-shot Style Transfer via Attention Reweighting

摘要小结: 尽管在图像风格转换方面取得了显著进展,但将风格置于艺术背景下进行表述本质上具有主观性和挑战性。与现有方法相比,本研究表明,标准的扩散模型可以直接提取风格信息,并且无需重新训练就能将生成先验无缝地整合到内容图像中。具体来说,我们采用双重去噪路径来表示潜在空间中的内容/风格参考,然后使用风格潜在代码指导内容图像的去噪过程。我们进一步揭示,潜在扩散模型中的交叉注意力机制倾向于混合内容图像和风格图像,导致偏离原始内容图像的样式化输出。为了克服这一局限性,我们引入了一种交叉注意力重加权策略。通过理论分析和实验,我们展示了基于注意力重加权的扩散式零样本风格转移(Z-STAR)的有效性和优越性。

主要内容概述:
这段话讨论了图像风格转换的进展,指出了一种新的研究方法。该方法使用标准的扩散模型直接提取风格信息,并通过双重去噪路径和交叉注意力重加权策略来改进风格转移。研究还展示了这种方法的有效性和优越性。

Paper32 HIG: Hierarchical Interlacement Graph Approach to Scene Graph Generation in Video Understanding

摘要小结: 视觉场景中的视觉交互性理解在计算机视觉中提出了一个重大挑战。现有方法专注于复杂的交互性,同时利用简单的关系模型。然而,这些方法在处理视频中外观、情境、位置、交互和关系的多样性方面存在困难。这一限制阻碍了完全理解主体复杂视觉动态中相互作用的潜力。在本文中,我们通过从人与物体之间的密集交互中导出场景图表示,深入探讨了视觉内容中的交互性理解。为了实现这一目标,我们首先提出了一个包含外观-情境-位置-交互-关系谓词的新数据集,名为ASPIRe,提供了大量标记有广泛交互活动的视频。然后,我们提出了一种名为层次交织图(HIG)的新方法,它利用层次结构中的统一层和图来深入洞察跨五个不同任务的场景变化。

以下是主要内容概述:

翻译内容:视觉场景内的视觉交互性理解对计算机视觉来说是一个重大挑战。现有方法主要关注复杂的交互性,并使用简单的关系模型。但这些方法在处理视频中的多样表现、情境、位置、交互和关系方面遇到挑战。

概述:

  • 文章讨论了视觉内容中的交互性理解。
  • 提出了一个新数据集ASPIRe,包含广泛的交互活动视频。
  • 提出了层次交织图(HIG)方法,用于深入理解场景变化。
  • 通过实验,该方法在多种情况下表现出优于其他方法。

Paper33 OOSTraj: Out-of-Sight Trajectory Prediction With Vision-Positioning Denoising

摘要小结: 轨迹预测在计算机视觉和自动驾驶中是基础性的,特别是在理解行人行为和实现主动决策方面。现有的方法通常假设有精确和完整的观测数据,忽视了由于摄像头范围有限、物理遮挡以及去噪传感器数据缺乏地面真相带来的挑战。这样的疏忽是重要的安全问题,因为它们可能导致遗漏关键的不可见物体。为了弥补这一差距,我们提出了一种新的方法,用于预测视线外的轨迹,该方法利用了一种视觉定位技术。我们的方法在无监督的情况下对噪声传感器观测进行去噪,并将基于传感器的视线外物体的轨迹精确地映射到视觉轨迹中。该方法在Vi-Fi和JRDB数据集上的视线外噪声传感器轨迹去噪和预测中展示了最先进的性能。通过提高轨迹预测的准确性和解决视线外物体的挑战,我们的工作显著有助于提高复杂环境中自动驾驶的安全性和可靠性。我们的工作是朝向Out-Of-Sight Trajectory预测(OOSTraj)的第一个倡议,为未来的研究设定了新的基准。

概述主要内容:
这段话主要介绍了轨迹预测在自动驾驶等领域的重要性,指出现有方法存在的问题,并提出了一种新的方法来预测视线外的轨迹。该方法可以有效去噪并提高预测准确性,对提高自动驾驶安全性和可靠性具有重要意义。同时,该工作也为未来的研究设定了新的基准。

Paper34 FADES: Fair Disentanglement with Sensitive Relevance

摘要小结: 在深度学习中学习公平表示对于缓解歧视性结果和增强可信度至关重要。然而,之前的研究通常建立在不当的假设上,容易导致不切实际的反事实和性能下降。尽管有人提出了替代方法,如使用相关感知因果图或互信息的代理,但这些方法不太实用且不具普遍适用性。在这项工作中,我们提出了FAir DisEntanglement with Sensitive relevance (FADES),这是一种新颖的方法,利用信息理论中的条件互信息来解决这些挑战。我们使用敏感相关代码来指导目标标签和敏感属性之间的相关信息,通过施加条件独立性,允许在潜在空间中更好地分离感兴趣的特征。利用直观的解耦方法,FADES在性能和公平性方面均定量和定性优于其简单结构。特别是,该方法在下游分类和反事实生成方面优于现有工作,在各种基准上表现突出。

主要内容概述:
这段话主要讨论了在深度学习中实现公平表示的重要性,并提出了一个名为FADES的新方法。该方法旨在解决之前研究中存在的不切实际的问题,通过使用条件互信息来处理挑战。FADES能够提高性能和公平性,并在下游任务中表现优于现有工作。

Paper35 Learning Continuous 3D Words for Text-to-Image Generation

摘要小结: 当前对图像生成中的扩散模型(例如通过文本或ControlNet)的控制手段,在识别抽象连续属性(如光照方向或非刚性形状变化)方面存在不足。本文提出了一种方法,允许文本到图像模型的用户对图像中的多个属性进行细粒度控制。我们通过设计特殊的输入标记集来实现这一点,这些标记可以以连续方式变换,我们称之为“连续3D词汇”。这些属性可以例如表示为滑块,并与文本提示结合使用,以实现对图像生成的细粒度控制。仅给定一个网格和一个渲染引擎,我们展示了我们的方法可以用于提供对多个3D感知属性的连续用户控制,包括一天中的时间光照、鸟翼方向、滑动变焦效果和物体姿态。

以下是主要内容概述:

翻译内容:本文介绍了如何让用户对图像生成进行细粒度控制的方法,通过“连续3D词汇”来实现连续属性的控制。这些控制可以应用于多个3D感知属性,且不会给生成过程增加额外负担。

主要内容概述:文章主要讨论了改进图像生成控制的方法,特别是针对连续属性,并通过“连续3D词汇”实现了这一点,提高了用户控制的精细度。

Paper36 MarkovGen: Structured Prediction for Efficient Text-to-Image Generation

摘要小结: 现代文本到图像生成模型能够产生既逼真又忠实于文本提示的高质量图像。然而,这种质量是以巨大的计算成本为代价的:几乎所有这些模型都是迭代的,并且需要使用大型模型多次进行采样。这种迭代过程是为了确保图像的不同区域不仅与文本提示一致,而且彼此之间也兼容。在这项工作中,我们提出了一种轻量级方法,使用马尔可夫随机场(MRF)模型实现图像不同区域之间的兼容性。我们在基于潜在令牌的Muse文本到图像模型之上展示了这种方法的有效性。MRF丰富地编码了不同空间位置的图像令牌之间的兼容性,以提高质量并显著减少所需的Muse采样步骤。使用MRF的推理显著更便宜,其参数可以通过将MRF推理建模为可微神经网络的层来快速通过反向传播学习。

主要内容概述:
这段话介绍了现代文本到图像生成模型的质量和计算成本问题,并提出了一种新的方法来降低成本。该方法使用MRF模型来确保图像区域的兼容性,并在Muse模型上展示了有效性,减少了采样步骤,并提供了以下要点:

  • MRF帮助提高图像质量。
  • MRF减少了计算成本。
  • MRF参数可以通过快速学习获得。
    以下是翻译:

现代文本到图像生成模型产生的高质量图像既具有逼真性,也符合文本提示。然而,这种质量伴随着巨大的计算成本:几乎所有这些模型都是迭代的,需要使用大型模型多次进行采样。这一迭代过程是为了确保图像的不同区域不仅与文本提示一致,而且彼此之间也相兼容。在本研究中,我们提出了一种轻量级方法,利用马尔可夫随机域(MRF)模型实现图像不同区域之间的这种兼容性。我们在基于潜在令牌的Muse文本到图像模型上验证了该方法的有效性。MRF模型丰富地编码了不同空间位置的图像令牌之间的兼容性,从而提高质量并显著减少了所需的Muse采样步骤。MRF的推理成本显著更低,其参数可以通过将MRF推理视为可微分神经网络层来快速通过反向传播学习。我们的完整模型MarkovGen使用这个提议的MRF模型,使Muse的速度提高了1.5倍,并通过减少不必要图像艺术性来产生更高质量的图像。

Paper37 Self-Supervised Class-Agnostic Motion Prediction with Spatial and Temporal Consistency Regularizations

摘要小结: 这段话的中文翻译如下:

在动态环境中对运动行为的感知对于自动驾驶系统至关重要,其中类不可知的运动预测方法直接预测整个点云的运动。尽管大多数现有方法依赖于完全监督学习,但点云数据的手动标注既费时又费力。因此,已经提出了几种注解效率高的方法来应对这一挑战。尽管这些方法有效,但它们依赖于弱标注或额外的多模态数据,如图像,而点云序列中固有的潜在优势仍然未被充分探索。为此,我们探讨了仅使用未标记的激光雷达点云进行自监督运动预测的可行性。最初,我们使用最优传输求解器在当前点云和未来点云之间建立粗略的对应关系,作为粗略的伪运动标签。直接使用这样的粗略标签进行模型训练会导致明显的空间和时间预测不一致。为了缓解这些问题,我们引入了三种简单的空间和时间正则化损失,有效地促进了自监督训练过程。实验结果表明,我们的方法在自监督方法中显著优于现有技术水平。代码将可用。

主要内容概述:
这段话讨论了在自动驾驶系统中,对动态环境中的运动行为进行感知的重要性。作者提出了一种新的方法,即使用未标记的激光雷达点云数据进行自监督运动预测,以避免手动标注点云数据的困难。他们使用最优传输求解器生成伪运动标签,并通过引入空间和时间正则化损失来改善预测的一致性。实验结果显示,这种方法在自监督学习领域优于现有技术。最后,作者提到将公开相关代码。

Paper38 HashPoint: Accelerated Point Searching and Sampling for Neural Rendering

摘要小结: 翻译:摘要不可用。

概述:这段话的内容是告知读者,某个文档或文章的摘要信息不可用,无法提供摘要内容。

Paper39 MFP: Making Full Use of Probability Maps for Interactive Image Segmentation

摘要小结: 最近在交互式分割算法中,以前的概率图被用作网络输入,以帮助当前分割轮次的预测。然而,尽管使用了以前的掩模,概率图中包含的有用信息并没有很好地传递到当前预测中。在本文中,为了克服这一局限性,我们提出了一种新颖有效的基于点击的交互式图像分割算法,称为MFP,它试图充分利用概率图。我们首先调节先前的概率图,以增强它们对用户指定对象的表示。然后,我们将调节后的概率图作为附加输入馈送给分割网络。我们基于ResNet-34、HRNet-18和ViT-B骨干网络实现了提出的MFP算法,并在各种数据集上广泛评估了其性能。结果显示,MFP明显优于使用相同骨干网络的现有算法。源代码可在https://github.com/cwlee00/MFP获取。

概述主要内容:
这段话主要介绍了作者提出的一种新的交互式图像分割算法MFP,该算法旨在更好地利用先前的概率图来提高分割性能。作者描述了如何调节概率图,并将其作为输入提供给分割网络。此外,还提到了算法基于不同骨干网络的实现,并在多个数据集上进行了性能评估,结果显示MFP优于现有算法。最后,提供了源代码的获取途径。

Paper40 CAT: Exploiting Inter-Class Dynamics for Domain Adaptive Object Detection

摘要小结: 域自适应目标检测旨在使检测模型能够适应那些没有注释数据的领域。现有的方法已经提出了使用半监督的学生-教师框架来解决域差距。然而,由于标记训练集中的类别不平衡,出现了一个基本问题,这可能导致伪标签不准确。类别之间的关系,尤其是当一个类别是多数而另一个是少数时,对类别偏见有很大影响。我们提出了Class-Aware Teacher(CAT)来解决域自适应设置中的类别偏见问题。在我们的工作中,我们使用我们的Inter-Class Relation模块(ICRm)来近似类别关系,并利用它来减少模型中的偏见。这样,我们能够对域内和域间高度相关的类别应用增强,以提高少数类别的性能,同时对多数类别的影响最小。

以下是主要内容概述:

翻译内容:
域自适应目标检测的目标是让检测模型适应没有注释数据的领域。现有方法使用半监督的学生-教师框架来解决域差距。但是,标签训练集中的类别不平衡导致不准确伪标签。类别之间的关系对类别偏见有重大影响。本文提出了Class-Aware Teacher(CAT)来解决域自适应中的类别偏见问题。通过ICRm模块近似类别关系,减少模型偏见。此方法能增强相关类别,提高少数类别性能。

概述:

  • 翻译内容提到,CAT旨在解决域自适应中的类别偏见问题。
  • 使用ICRm模块来处理类别关系。
  • 通过减少偏见,提高了少数类别的性能。
    -以下是实验结果:

实验在不同数据集上进行,结果显示我们的方法能够解决域自适应设置中的类别偏见。在Cityscapes ? Foggy Cityscapes数据集上,我们达到了52.5 mAP,比现有最佳方法的51.2 mAP有了显著改进。

Paper41 StyLitGAN: Image-Based Relighting via Latent Control

摘要小结: 我们介绍了一种名为StyLitGAN的新方法,用于在没有标记数据的情况下重新打光和重塑图像。StyLitGAN能够生成具有真实光照效果的图像,包括投射阴影、软阴影、相互反射和光泽效果,而无需配对或CGI数据。StyLitGAN使用内在图像方法分解图像,然后搜索预训练的StyleGAN的潜在空间,以确定一组方向。通过提示模型固定一个组件(例如,反照率)并改变另一个(例如,阴影),我们通过将确定的方向添加到潜在风格代码中生成重新照明的图像。反照率和光照多样性的定量指标使我们能够使用正向选择过程选择有效方向。定性评估确认了我们的方法的有效性。

概述主要内容:
这段话介绍了一种名为StyLitGAN的新方法,该方法能够在没有标记数据的情况下处理图像的重新打光和重塑。它能够生成具有真实光照效果的图像,并且不需要依赖配对或CGI数据。该方法的工作原理和其主要内容包括分解图像、搜索潜在空间,以及生成重新照明的图像等。最后,定量和定性评估都确认了该方法的有效性。

Paper42 An Empirical Study of Scaling Law for Scene Text Recognition

摘要小结: 这段话的中文翻译如下:

在自然语言处理(NLP)领域,模型大小、数据量、计算和模型性能的规律已经被广泛研究。然而,在场景文本识别(STR)方面的扩展规律尚未得到探讨。为了解决这一问题,我们进行了全面的研究,包括检查在文本识别领域中模型性能与模型大小、数据量和计算规模之间的相关性。研究最终表明,当其他影响因素保持不变时,性能与模型大小以及训练数据量之间存在平稳的幂律关系。此外,我们构建了一个大规模的数据集,名为REBU-Syn,其中包含600万个真实样本和1800万个合成样本。基于我们的扩展规律和新数据集,我们成功训练了一个场景文本识别模型,在6个常见测试基准上达到了新的最先进水平,top-1平均准确率达到97.42%。模型和数据集已在 \href {https://github.com/large-ocr-model/large-ocr-model.github.io} {large-ocr-model.github.io} 公开提供。

主要内容概述:
这段话主要讨论了在场景文本识别(STR)领域,模型大小、数据量和计算规模与模型性能之间的关系研究。研究表明,存在一定的扩展规律,即性能与模型大小及训练数据量之间存在幂律关系。同时,作者构建了一个新的、大规模的数据集REBU-Syn,并基于此数据集训练出了表现卓越的文本识别模型,达到了业界领先水平,并将模型和数据集公开分享。

Paper43 Text2Loc: 3D Point Cloud Localization from Natural Language

摘要小结: 我们针对基于少量自然语言描述的3D点云定位问题进行研究,并引入了一种新颖的神经网络Text2Loc,它完全解释了点与文本之间的语义关系。Text2Loc遵循从粗到细的定位流程:先进行文本子图全局位置识别,然后进行精细定位。在全局位置识别中,每个文本提示之间的关系动态被一个具有最大池化(HTM)的分层变压器捕获,同时通过文本子图对比学习保持正负对之间的平衡。此外,我们提出了一种新颖的无匹配精细定位方法,以进一步优化位置预测,这完全消除了复杂的文本实例匹配需求,并且比之前的方法更轻便、更快、更准确。

以下主要内容概述:

翻译:我们解决了一个问题,即基于少量自然语言描述进行3D点云定位,并介绍了Text2Loc。

概述:

  • 文本讨论了Text2Loc,这是一种新型神经网络。
  • Text2Loc使用从粗到细的定位流程。
  • 在全局位置识别中,使用了特定的技术和学习方法。
  • 提出了无匹配的精细定位方法。
  • 实验显示,在KITTI360Pose数据集上,Text2Loc将定位准确度提高了2倍。
  • 项目页面是公开可用的。以下是翻译:

翻译:
我们解决了基于少量自然语言描述的3D点云定位问题,并引入了一种新型的神经网络Text2Loc,它完全解释了点与文本之间的语义关系。Text2Loc遵循一个从粗到细的定位流程:首先是文本子图的全局位置识别,然后是精细定位。在全局位置识别中,每个文本提示之间的关系动态被一个带有最大池化的分层变压器(HTM)捕获,同时通过文本子图对比学习来维持正负对之间的平衡。此外,我们提出了一种新颖的无匹配精细定位方法,以进一步优化位置预测,这完全消除了对复杂文本实例匹配的需求,并且比之前的方法更轻便、更快、更准确。大量的实验表明,Text2Loc在KITTI360Pose数据集上的定位准确度比现有技术提高了2倍。我们的项目页面公开可访问。

Paper44 SVDinsTN: A Tensor Network Paradigm for Efficient Structure Search from Regularized Modeling Perspective

摘要小结: 张量网络(TN)表示是一种用于计算机视觉和机器学习的强大技术。张量网络结构搜索(TN-SS)旨在寻找一种定制化的结构,以实现紧凑的表示,这是一个具有挑战性的NP难问题。最近的“采样-评估”方法需要采样大量的结构,并逐个评估它们,导致计算成本过高。为了解决这一问题,我们提出了一种新颖的TN范式,称为奇异值分解启发式TN分解(SVDinsTN),它允许我们从正则化建模的角度有效地解决TN-SS问题,消除了重复的结构评估。

以下是翻译内容:

张量网络表示是一种强大的技术,用于计算机视觉和机器学习。张量网络结构搜索旨在寻找一个定制的结构,以实现紧凑的表示,这是一个挑战性的NP难题。最近的“采样-评估”基于方法需要采样大量结构并逐一评估,导致计算成本过高。

以下概述:

主要内容概述:

  1. 张量网络表示对计算机视觉和机器学习很重要。
  2. TN-SS是一个挑战性的问题,旨在寻找紧凑的结构。
  3. 现有方法计算成本过高。
  4. 提出了SVDinsTN新范式,有效解决TN-SS问题。
  5. SVDinsTN通过以下方式工作:插入对角因子,同时计算核心和因子稀疏性。
  6. 理论上证明了该方法的收敛性。
  7. 实验结果显示,该方法比现有方法快约100到1000倍,同时保持表示能力。

以下是具体翻译:

  • 我们提出了一种新颖的TN范式,名为SVD启发的TN分解(SVDinsTN),它允许我们高效地解决TN-SS问题,具体来说,通过为完全连接的TN的每条边插入对角因子,SVDinsTN允许我们同时计算TN核心和对角因子,揭示了一个紧凑的TN结构。理论上,我们证明了所提方法的收敛保证。实验结果表明,与最先进的TN-SS方法相比,所提方法实现了大约100到1000倍的加速,同时保持了相当的表示能力。

Paper45 Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework

摘要小结: 医疗视觉语言预训练(VLP)已成为研究前沿,它通过将查询图像与每种疾病的文本描述进行比较,实现了零样本病理识别。由于生物医学文本的复杂语义,现有方法很难将医疗图像与无结构报告中关键的病理发现对齐,这导致了与目标疾病文本表示的不一致。在本文中,我们介绍了一种新颖的VLP框架,该框架旨在利用关于病变视觉表现的先验知识,将疾病描述分解为基本方面。这是通过咨询大型语言模型和医学专家实现的。我们的方法整合了Transformer模块,将输入图像与疾病的多样元素对齐,生成以方面为中心的图像表示。通过整合每个方面的匹配,我们提高了图像与其相关疾病之间的兼容性。此外,利用面向方面的表示,我们提出了一种双头Transformer,专门用于处理已知和未知疾病,优化了全面的检测效果。

以下主要内容概述:

翻译:
医学视觉语言预训练(VLP)已经成为一个研究前沿,它能够通过将查询图像与每种疾病的文本描述进行比较,实现零样本病理识别。由于生物医学文本的复杂语义,现有方法在将医学图像与无结构报告中关键的病理发现对齐时存在困难,从而导致与目标疾病文本描述的不匹配。本文提出了一种新的VLP框架,该框架能将疾病描述分解为基本方面,利用病变视觉表现的先验知识。以下是概述:

概述:

  • VLP用于零样本病理识别。
  • 现有方法在处理复杂生物医学文本时遇到困难。
  • 提出了新的VLP框架,分解疾病描述,利用先验知识。
  • 框架使用Transformer模块对齐图像和疾病元素。
  • 通过方面匹配提高了图像与疾病的兼容性。
  • 提出了双头Transformer,优化了疾病检测。

结果:

  • 在七个下游数据集上进行实验,准确性比最近的方法提高了最多8.56%(已知类别)和17.26%(未知类别)。
  • 代码已发布在指定链接。

Paper46 MoMask: Generative Masked Modeling of 3D Human Motions

摘要小结: 我们介绍了MoMask,这是一种用于文本驱动的3D人体运动生成的创新遮罩建模框架。在MoMask中,采用了一种分层量化方案,将人体运动表示为具有高保真细节的多层离散运动令牌。从基础层开始,通过矢量量化得到一系列运动令牌,然后在层次结构的后续层中导出并存储增加顺序的残差令牌。随后是两个不同的双向变压器。对于基础层的运动令牌,指定了一个遮罩变压器来预测在训练阶段根据文本输入条件随机遮罩的运动令牌。在生成阶段(即推理阶段),从空序列开始,我们的遮罩变压器迭代填充缺失的令牌;随后,残差变压器学习根据当前层的结果逐步预测下一层令牌。

以下主要内容概述:

翻译内容:

  • MoMask是一种新型的遮罩建模框架。
  • 使用多层离散运动令牌表示人体运动。
  • 涉及两个不同的变压器处理令牌。
    以下是关键点:
  1. MoMask的性能:

以下是主要结果:

  • MoMask在文本到运动生成任务上优于现有方法。
  • 在以下数据集上取得了显著成果:HumanML3D和KIT-ML。

以下是其他应用:

  • MoMask还可以无缝应用于相关任务,无需进一步模型微调。

以下是翻译:

我们介绍MoMask,这是一种用于文本驱动的3D人体运动生成的新型遮罩建模框架。以下是概述:

概述:
MoMask使用分层量化方案,翻译如下:

  • 它将人体运动表示为多层离散运动令牌,并在训练和生成阶段使用变压器进行处理。
  • 它在多个数据集上展示了优于现有方法的表现。
  • 它可以无需进一步微调即可应用于其他相关任务。以下是具体数字:FID分别为0.045和0.228。

Paper47 Inverse Rendering of Glossy Objects via the Neural Plenoptic Function and Radiance Fields

摘要小结: 反渲染旨在恢复物体的几何和材质。与神经辐射场(NeRFs)相比,它为传统渲染引擎提供了更兼容的重建方式。另一方面,现有的基于NeRF的反渲染方法无法很好地处理具有局部光交互的亮面物体,因为它们通常将照明简化为2D环境贴图,这仅假设了无限光源。观察到NeRF在恢复辐射场方面的优势,我们提出了一种基于NeRF和光线追踪的新型5D神经全息函数(NeP),以便通过渲染方程更准确地制定光照-物体交互。我们还设计了一种材质感知的圆锥采样策略,在预过滤辐射场的帮助下有效地整合BRDF lobes内的光线。

主要内容概述:

以下是对段落的概述:

  • 反渲染的目标是恢复物体几何和材质。
  • 与NeRFs相比,它对传统渲染引擎更兼容。
  • 现有方法处理亮面物体不佳,因为光照简化。
  • 提出了基于NeRF的5D神经全息函数(NeP)。
  • 设计了材质感知的采样策略。
  • 方法分为两个阶段:第一阶段重建几何和环境辐射场,第二阶段估计材质。
  • 实验证明,该方法可以重建具有复杂光照交互的亮面物体的高质量几何/材质。

以下是翻译:

反渲染的目标是恢复物体的几何和材质。它相比于神经辐射场(NeRFs)为传统渲染引擎提供了更为兼容的重建方式。另一方面,现有的基于NeRF的反渲染方法无法很好地处理具有局部光交互的亮面物体,因为它们通常将照明简化为假设只有无限光源的2D环境贴图。观察到NeRF在恢复辐射场方面的优越性,我们提出了一种基于NeRF和光线追踪的新型5D神经全息函数(NeP),以便通过渲染方程更准确地制定更准确的光照-物体交互。我们还设计了一种材质感知的圆锥采样策略,以在预过滤辐射场的帮助下有效地整合BRDF lobes内的光线。我们的方法分为两个阶段:第一阶段重建目标物体的几何和预过滤的环境辐射场,第二阶段利用提出的NeP和材质感知圆锥采样策略估计目标物体的材质。在提出的真实世界和合成数据集上的大量实验表明,我们的方法可以重建具有复杂光照交互的挑战性亮面物体的高保真几何/材质。项目网页:https://whyy.site/paper/nep.

Paper48 Split to Merge: Unifying Separated Modalities for Unsupervised Domain Adaptation

摘要小结: 这段话的中文翻译如下:

大型的视觉-语言模型(VLMs),如CLIP,在无监督领域自适应任务中展示了良好的零样本学习性能。然而,大多数用于VLMs的迁移方法要么关注语言分支,要么关注视觉分支,忽视了两种模态之间微妙的相互作用。在这项工作中,我们引入了一个统一的模态分离(UniMoS)框架用于无监督领域自适应。利用模态间隙研究的洞察,我们设计了一个灵活的模态分离网络,能够清晰地分解CLIP的特征为与语言相关和与视觉相关的组件。我们提出的模态集成训练(MET)方法促进了模态无关信息的交换,同时保持了模态特定的细微差别。我们使用模态判别器对跨领域的特征进行对齐。在三个基准上的全面评估显示,我们的方法以最小的计算成本设定了新的最先进水平。代码:https://github.com/TL-UESTC/UniMoS…

主要内容概述:

这段话介绍了一种名为统一模态分离(UniMoS)的框架,用于无监督领域自适应。该框架设计了一个模态分离网络,能够将CLIP模型的特征分解为与语言和视觉相关的部分。同时,提出了一种模态集成训练(MET)方法,促进模态无关信息的交换,同时保持模态特定的细节。该方法在三个基准测试中取得了最先进的结果,且计算成本较低。

Paper49 Fitting Flats to Flats

摘要小结: 欧几里得空间的仿射子空间也被称为平面。在计算机视觉中,或者更一般地在工程和应用科学中,一个标准的任务是拟合一个平面到一个点集,这通常是通过使用主成分分析(PCA)来解决的。我们将这种技术进行推广,使得可以拟合一个平面到一组可能具有不同维度的其他平面,这基于将平面表示为平方距离场。与之前的方法相比,如仿射Grassmann流形中的Riemannian质心,我们的方法在概念上简单得多,计算上更高效,同时仍具有理想的性质,如尊重对称性和对刚体变换保持不变性,从而在实践中得到更直观和有用的结果。我们在一系列合成实验和多视图重建任务中对这些说法进行了演示,该任务涉及线状物体。

主要内容概述:
这段话讨论了将平面拟合到点集的技术,并对其进行了一个扩展。它提到使用PCA进行拟合,并提出了一个新方法来拟合不同维度的平面。该方法在概念和计算效率上优于之前的方法,并且具有一些理想属性,通过实验和重建任务进行了验证。

Paper50 Fusing Personal and Environmental Cues for Identification and Segmentation of First-Person Camera Wearers in Third-Person Views

摘要小结: 随着可穿戴摄像头的普及,一个重要的问题出现了:如何从传统静态摄像头的角度识别摄像头佩戴者。第一人称(自我中心)和第三人称(外部中心)摄像头视角之间的巨大差异使得这一任务颇具挑战性。我们提出了PersonEnvironmentNet(PEN),这是一个框架,旨在整合两个视角中个体以及从背景环境中推断出的几何线索的信息。为了推动这一方向的研究,我们还推出了TF2023,这是一个新颖的数据集,包含同步的第一人称和第三人称视角,以及摄像头佩戴者的掩码和将这些掩码与相应第一人称视角相关联的标签。此外,我们还提出了一种新颖的定量指标,用于衡量模型理解两种视角之间关系的能力。我们的实验表明,PEN优于现有方法。代码和数据集可在https://github.com/ziweizhao1993/PEN获取。

概述主要内容:
这段话介绍了随着可穿戴摄像头流行的一个挑战:如何从静态摄像头角度识别佩戴者。提出了PersonEnvironmentNet(PEN)框架来解决这一问题,同时介绍了TF2023数据集和一个新的定量指标。实验显示PEN表现优于现有方法。

  • 30
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值