向向2024-CSDN博客

原创 CVC-ClinicDB（Colorectal Cancer-Clinic Dataset）数据集介绍

CVC-ClinicDB（Colorectal Cancer-Clinic Dataset）数据集介绍

2024-06-07 07:15:55 428 1

原创【遥感图像】多光谱与全色图像相关知识总结

多光谱图像（MS）和全色图像（PAN）是遥感技术中常用的两种图像类型，它们各自具有独特的特点和应用优势。

2024-05-07 11:48:36 458

原创【CVPR2024】文本到图像的行人再识别中的噪声对应学习

论文主要研究了文本到图像的行人再识别（Text-to-Image Person Re-identification, TIReID）问题，这是一个在跨模态领域中具有挑战性的话题，目标是基于文本查询检索目标人物的图像。

2024-04-22 14:42:55 302

原创【CVPR2023】Re:InterHand：一个用于3D交互手部姿态估计的重光照数据集

双手交互是分析中最具挑战性的信号之一，因为手的自相似性、复杂的关节和遮挡。尽管已经提出了几个双手交互分析的数据集，但它们都没有同时实现1) 多样化和逼真的图像外观，以及2) 多样化和大规模的地面真实(GT) 3D姿态。在这项工作中，我们提出了Re:InterHand，一个重光照的3D交互手数据集，实现了这两个目标。为此，我们使用了最先进的手部重光照网络和我们准确追踪的双手3D姿态。我们比较了我们的Re:InterHand与现有的3D交互手数据集，并展示了它的好处。

2024-04-20 12:42:56 1148

原创 [ICCV2023]RenderIH：用于3D交互手部姿态估计的大规模合成数据集

现有的交互手(IH)数据集在背景和纹理方面相对简单，手部关节由机器注释器标注，可能导致不准确，且姿态分布的多样性有限。然而，背景、姿态分布和纹理的可变性可以极大地影响泛化能力。因此，我们提出了一个大规模的合成数据集——RenderIH——用于具有准确和多样化姿态注释的交互手。数据集包含1M张具有不同背景、视角和手部纹理的照片真实感图像。为了生成自然和多样化的交互姿态，我们提出了一种新的姿态优化算法。

2024-04-20 12:35:59 707

原创 [ICCV2023]DIR-用于从单个RGB图像重建交互手部的解耦迭代细化框架

从单个RGB图像中重建交互的双手是一个非常具有挑战性的任务。一方面，双手之间的严重遮挡和相似的局部外观会混淆视觉特征的提取，导致估计的手部网格与图像错位。另一方面，交互的双手之间存在复杂的空间关系，这显著增加了手部姿态的解空间，增加了网络学习的难度。在本文中，我们提出了一个解耦的迭代细化框架，以实现像素级对齐的手部重建，同时有效建模双手之间的空间关系。具体来说，我们定义了两个具有不同特征的特征空间，即2D视觉特征空间和3D关节特征空间。

2024-04-20 12:28:43 818

原创 [ICCVW2023]EANet-提取与适应网络：用于3D交互手部网格恢复的网络

理解双手如何相互作用是准确恢复3D交互手部网格的关键组成部分。然而，最近的基于Transformer的方法在学习双手之间的交互时存在困难，因为它们直接使用双手特征作为输入令牌，这导致了远距离令牌问题。远距离令牌问题表示输入令牌处于异构空间，导致Transformer无法捕获输入令牌之间的相关性。本文提出了EABlock（提取和适应块），这是我们网络的主要组件，它使用两种新型令牌，SimToken和JoinToken，而不是直接使用双手特征作为输入令牌。

2024-04-20 12:18:10 880

原创【CVPR2023】《A2J-Transformer：用于从单个RGB图像估计3D交互手部姿态的锚点到关节变换网络

3D交互手部姿态估计（IHPE）是一个挑战性的任务，因为手部存在严重的自遮挡和相互遮挡，两只手的外观模式相似，以及从2D到3D的病态关节位置映射等问题。为了解决这些问题，作者提出了A2J-Transformer，这是一种基于Transformer的非局部编码-解码框架，用于改进A2J（一种最先进的基于深度的单手3D姿态估计方法），以适应交互手部情况的RGB域。A2J-Transformer的主要优势包括：局部锚点通过自注意力机制建立全局空间上下文感知，以更好地捕获关节的全局线索；

2024-04-20 11:10:24 731

原创【CVPR2023】ACR: Attention Collaboration-based Regressor for Arbitrary Two-Hand Reconstruction

论文提出了一种名为ACR（Attention Collaboration-based Regressor）的新方法，用于从单目RGB图像中重建任意场景下的双手。ACR在CVPR 2023上的表现显著优于最佳的交互手方法，这表明其在处理单图像双手法重建方面具有显著的优势。

2024-04-16 17:59:12 925

原创 Pan-Mamba: Effective pan-sharpening with State Space Model

论文主要研究的是遥感图像的pansharpening技术，这是一种将低分辨率的多光谱图像与高分辨率的全色图像结合起来生成高分辨率多光谱图像的技术。尽管现有的深度学习方法在图像融合方面取得了进展，但仍存在一些挑战，特别是在捕捉全局信息和有效融合信息方面。

2024-04-13 12:05:53 161

原创 [Mamba]FusionMamba：基于状态空间模型的高效图像融合

定量和定性评估结果表明，FusionMamba方法达到了最先进的性能。：提出了一个包含空间U-Net和光谱U-Net的网络结构，分别从PAN/RGB图像中提取空间特征，从LRMS/LRHS图像中捕获光谱特征，这种结构允许独立和层次化的学习。：扩展了Mamba模块以支持双输入，创建了一个新的模块，称为FusionMamba模块，它比现有的融合技术（如连接和交叉注意力）更有效。：提出了一种新颖的图像融合方法，名为FusionMamba，它通过结合Mamba模块到两个U形网络中，实现了空间和光谱特征的有效提取。

2024-04-13 12:00:00 675

原创【Mamba】DGMamba：第一个基于状态空间模型的领域泛化框架

实验结果表明，DGMamba在多个DG基准数据集上都取得了显著的性能提升，证明了其在解决分布偏移问题上的有效性和优越性。未来的工作可能会探索如何利用特征提示或领域提示来进一步指导基于SSM的模型学习更强大的表示，以及在高结构任务中深入研究Mamba架构以解决分布偏移问题。：提出了一个新的DG框架，名为DGMamba，它在保持全局接收场和高效线性复杂性的同时，具有很强的泛化能力，能够适应未见过的领域。：在四个常用的DG基准数据集上进行了广泛的实验，证明了DGMamba在性能上超越了现有的最先进模型。

2024-04-13 11:49:24 97

原创 [CVPR 2024] CANConv: 遥感Pansharpening的内容自适应非局部卷积

本文介绍了一种新的遥感图像融合技术，称为内容自适应非局部卷积（CANConv），专门用于提高遥感图像pansharpening的效果。CANConv通过自适应卷积确保空间适应性，并结合非局部自相似性信息，提高了融合图像的质量。此外，作者还提出了CANNet网络架构，该架构主要利用多尺度自相似性信息。通过广泛的实验，CANConv显示出比现有融合方法更优越的性能，并且其有效性通过可视化、消融实验以及与多个测试集上现有方法的比较得到了证实。

2024-04-13 11:41:04 237

原创【ISBI2024】Language Grounded Single Source Domain Generalization in Medical Image Segmentation

本文提出了一种显式利用文本信息的方法，通过结合对比学习机制和文本编码器特征来学习更加鲁棒的特征表示。该方法通过文本引导的对比特征对齐技术，在跨模态、跨序列和跨站点等多种场景中评估了其有效性，并与现有文献中的方法进行了性能比较。本文通过结合文本信息和视觉特征，有效地解决了医学图像分割中的单源领域泛化问题，提高了分割的鲁棒性。文本引导的对比特征对齐方法在包括跨模态、跨序列和跨站点设置在内的具有挑战性的临床场景中表现出显著的改进。

2024-04-07 10:04:41 268 1

原创 InsectMamba：基于状态空间模型的害虫分类

这篇文章主要介绍了一种名为“InsectMamba”的新方法，用于*利用状态空间模型（SSMs）、卷积神经网络（CNNs）、多头自注意力机制（MSA）和多层感知机（MLPs）*进行昆虫害虫分类。该方法旨在提取更全面的视觉特征，并通过一个选择模块来动态地整合这些特征，从而提高模型区分害虫特性的能力。实验结果显示，“InsectMamba”在五个害虫分类数据集上优于其他强竞争对手，证明了其有效性和各个组件的重要性。

2024-04-07 09:39:53 250

原创【2024综述】域泛化-Domain Generalization for Medical Image Analysis

在医学图像分析领域，域泛化（Domain Generalization, DG）是一个重要的研究方向，旨在提高模型在未见过的域上的泛化能力。这一挑战源于不同医院、扫描仪厂商、成像协议和患者群体等导致的数据分布差异[3]。近年来，随着深度学习技术的发展，尽管在医学图像分割等领域取得了专家级的准确率，但这些模型在临床现实环境中应用时往往会出现泛化能力下降和准确性降低的问题[3]。为了解决这一问题，研究者提出了多种方法。

2024-04-05 10:43:41 1457 1

原创【2024】VLM-CPL：无注释的病理图像分类！来自视觉语言模型的共识伪标签

通过利用预训练的视觉语言模型，以无人工注释的方式进行病理图像分类，通过众包伪标签技术获得伪标签并通过一致性筛选以优化准确性。

2024-03-27 08:04:50 661 1

原创【2024】QKFormer: Hierarchical Spiking Transformer using Q-K Attention

SNN在ImageNet上首次达到 85.65% 准确率！本文提出一种专为脉冲神经网络(SNN)定制的脉冲形式 Q-K 注意力机制，并提出QKFormer：一种全新的脉冲Transformer，目前最强SNN！这是第一次在 ImageNet-1K 上直接训练 SNN 的准确率超过 85%，

2024-03-27 07:55:06 828 1

原创 Denoising Vision Transformers

我们深入探讨了视觉 transformer（ViT）内在的微妙但重要的挑战：这些模型的特征图显示出网格状伪影，这对 ViT 在下游任务中的性能产生了负面影响。我们的调查将这个问题追溯到输入阶段的位置编码。为解决这个问题，我们提出了一种新颖的噪声模型，该模型普遍适用于所有 ViT。具体来说，噪声模型将 ViT 输出分解为三个组成部分：一个不受噪声伪影影响的语义项和两个依赖于像素位置的伪影相关项。通过在每张图像的基础上强制跨视图特征一致性来实现这种分解，利用神经场。

2024-03-22 15:49:29 621 1

原创 Frequency Domain Nuances Mining for Visible-Infrared Person Re-identification

本文提出了一种新颖的频域细微差异挖掘方法，用于可见-红外人员再识别任务。通过在频域中探索交叉模态的频域信息，该方法有效地减小了可见光和红外图像之间的模态差异，并在多个数据集上取得了显著的性能提升。

2024-03-19 21:09:10 966

原创【CVPR2024】 EDITOR Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification

单模态对象重新识别（ReID）在复杂视觉场景中保持鲁棒性面临巨大挑战。相比之下，多模态对象ReID利用了来自不同模态的互补信息，显示出在实际应用中巨大的潜力。然而，以前的方法可能容易受到无关背景的影响，并且通常忽略模态间的差距。为了解决上述问题，我们提出了一种新颖的学习框架EDITOR，用于从视觉Transformer中为多模态对象ReID选择多样的标记。我们首先使用共享视觉Transformer从不同的输入模态中提取标记化特征。

2024-03-18 13:54:21 963

原创【CVPR2024 】Mamba 再夺一城：DiffuSSM来了！没有注意力的扩散模型

本研究提出了一种无需注意力机制的扩散模型，通过引入Diffusion State Space Model (DIFFUSSM)架构，有效处理高分辨率图像生成问题，同时显著减少总FLOP使用量。

2024-03-18 10:06:26 1993

原创 [CVPR2024] D3T: 跨越RGB-热成像领域差距的独特双域教师用于领域自适应目标检测

目标检测的领域适应通常涉及将知识从一个可见域迁移到另一个可见域。然而，从**可见域适应到热成像域的研究很少，因为可见域和热成像域之间的域差距远大于预期**，传统的领域适应方法无法成功促进这种情形下的学习。为了克服这个挑战，我们**提出了一种独特的双域教师（D3T）框架，为每个域采用不同的训练范式**。具体来说，我们***分别隔离源训练集和目标训练集来构建双教师，并依次将指数移动平均部署到学生模型上，以实现每个域的个别教师***。该框架进一步*融入了双教师之间的曲折学习方法，促使在训练过程中可见域向热成像域的

2024-03-17 12:03:19 1016

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_49090702的博客