向向2024
计算机视觉、多模态学习、大语言模型、医学图像分析、Diffusion 模型等,带你天天读论文
展开
-
【CVPR2024】文本到图像的行人再识别中的噪声对应学习
论文主要研究了文本到图像的行人再识别(Text-to-Image Person Re-identification, TIReID)问题,这是一个在跨模态领域中具有挑战性的话题,目标是基于文本查询检索目标人物的图像。原创 2024-04-22 14:42:55 · 374 阅读 · 0 评论 -
[CVPR 2024] CANConv: 遥感Pansharpening的内容自适应非局部卷积
本文介绍了一种新的遥感图像融合技术,称为内容自适应非局部卷积(CANConv),专门用于提高遥感图像pansharpening的效果。CANConv通过自适应卷积确保空间适应性,并结合非局部自相似性信息,提高了融合图像的质量。此外,作者还提出了CANNet网络架构,该架构主要利用多尺度自相似性信息。通过广泛的实验,CANConv显示出比现有融合方法更优越的性能,并且其有效性通过可视化、消融实验以及与多个测试集上现有方法的比较得到了证实。原创 2024-04-13 11:41:04 · 253 阅读 · 0 评论 -
【CVPR2024】 EDITOR Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification
单模态对象重新识别(ReID)在复杂视觉场景中保持鲁棒性面临巨大挑战。相比之下,多模态对象ReID利用了来自不同模态的互补信息,显示出在实际应用中巨大的潜力。然而,以前的方法可能容易受到无关背景的影响,并且通常忽略模态间的差距。为了解决上述问题,我们提出了一种新颖的学习框架EDITOR,用于从视觉Transformer中为多模态对象ReID选择多样的标记。我们首先使用共享视觉Transformer从不同的输入模态中提取标记化特征。原创 2024-03-18 13:54:21 · 984 阅读 · 0 评论 -
【CVPR2024 】Mamba 再夺一城:DiffuSSM来了!没有注意力的扩散模型
本研究提出了一种无需注意力机制的扩散模型,通过引入Diffusion State Space Model (DIFFUSSM)架构,有效处理高分辨率图像生成问题,同时显著减少总FLOP使用量。原创 2024-03-18 10:06:26 · 2084 阅读 · 0 评论 -
[CVPR2024] D3T: 跨越RGB-热成像领域差距的独特双域教师用于领域自适应目标检测
目标检测的领域适应通常涉及将知识从一个可见域迁移到另一个可见域。然而,从**可见域适应到热成像域的研究很少,因为可见域和热成像域之间的域差距远大于预期**,传统的领域适应方法无法成功促进这种情形下的学习。为了克服这个挑战,我们**提出了一种独特的双域教师(D3T)框架,为每个域采用不同的训练范式**。具体来说,我们***分别隔离源训练集和目标训练集来构建双教师,并依次将指数移动平均部署到学生模型上,以实现每个域的个别教师***。该框架进一步*融入了双教师之间的曲折学习方法,促使在训练过程中可见域向热成像域的原创 2024-03-17 12:03:19 · 1026 阅读 · 0 评论 -
[CVPR2024]DCNv4 Efficient Deformable ConvNets
Deformable Convolution v4 (DCNv4) 是一个高效和有效的算子,旨在广泛应用于视觉领域。它通过两种关键改进方案来解决其前作 DCNv3 的限制,即在空间聚合中删除 softmax 标准化以增强其动态特性和表达能力,并优化内存访问以提高速度。DCNv4 在各种任务中展现了卓越的性能,包括图像分类、实例和语义分割,尤其是图像生成。在将其集成到生成模型(如潜在扩散模型中的 U-Net)时,DCNv4 的性能超越基准模型,彰显了其增强生成模型的潜力。原创 2024-03-16 23:56:05 · 1238 阅读 · 0 评论