AI即插即用-CSDN博客

原创即插即用系列 | CVPR 2025 LSRNA：利用隐空间超分与噪声对齐，打破扩散模型生成 4K 图像的效率瓶颈

本文提出了一种名为LSRNA（Latent Super-Resolution with Noise Alignment）的新框架，旨在解决扩散模型生成高分辨率图像时的效率瓶颈和结构一致性问题。该方法创新性地将超分辨率过程从像素空间转移到隐空间，通过轻量级隐空间超分网络快速提升分辨率，并设计噪声对齐机制解决分布不匹配问题。实验表明，LSRNA在保持生成质量的同时，将4K图像生成速度提升至现有方法的3倍，有效避免了传统方法中的重复纹理和结构崩坏问题。该框架具有即插即用特性，可广泛应用于文生图、图生图等场景。

2026-05-24 08:36:47 334

原创即插即用系列（代码实践）| CVPR 2025 LSRNA：利用隐空间超分与噪声对齐，打破扩散模型生成 4K 图像的效率瓶颈

摘要：本文提出了一种基于扩散模型的潜在空间超分辨率方法（LSRNA），通过LSR模块实现连续坐标域的无损放大，结合RNA模块的边缘自适应噪声注入，有效解决了传统方法在超高分辨率图像生成中的模糊和伪影问题。LSR模块利用MLP在潜在空间进行坐标连续查询，避免插值损失；RNA模块则根据边缘掩码智能加噪，仅在需要锐化的区域增强细节。实验表明，该方法可显著提升4K及以上分辨率图像的生成质量，为AIGC和超分任务提供了即插即用的解决方案。代码已开源。

2026-05-24 08:34:41 602

原创即插即用系列 | SliMamba——空谱维度魔术转换，打造高光谱分类的超轻量级 Mamba 架构

本文提出了一种超轻量级卷积-Mamba混合架构SliMamba，用于解决高光谱图像分类中的光谱冗余和样本稀缺问题。核心创新包括：(1)光谱选择卷积(SSC)，通过维度交换实现低成本的跨通道特征提取；(2)重叠中心Mamba(OC-Mamba)，通过蛇形扫描和衰减位置编码强化中心像素先验。实验表明，SliMamba在仅20K参数量下，显著超越现有方法，在多个数据集上达到SOTA精度。该模型为高维物理特征处理提供了高效解决方案，可广泛应用于遥感、医疗等领域。代码已开源。

2026-05-23 11:14:11 341

原创即插即用系列 | IEEE TMM FIWHN：基于特征交互加权混合网络的高效图像超分辨率

本文提出FIWHN网络，通过宽残差蒸馏交互模块(WDIB)解决轻量级图像超分辨率中的特征丢失问题。WDIB采用宽残差连接(WRDC)和自校准融合(SCF)保留层级特征，并在网络末端引入Transformer模块增强全局依赖捕捉。实验表明，FIWHN在保持低参数量的同时，PSNR性能显著提升，尤其在恢复高频纹理时效果突出。该网络通过"信息保真与互补"的设计理念，成为轻量级超分辨率领域的有效解决方案。

2026-05-23 11:06:10 636

原创即插即用系列（代码实践） | IEEE TMM FIWHN：基于特征交互加权混合网络的高效图像超分辨率

摘要：本文提出了一种基于特征交互加权混合网络(FIWHN)的高效图像超分辨率方法，解决了轻量级网络在底层视觉任务中的两个关键问题：中间层特征丢失和全局感知能力不足。通过宽残差蒸馏交互块(WDIB)和高效Transformer块(TransBlock)的混合架构，结合特征交互加权机制与自校准融合(SCF)，实现了多尺度细节保留与局部-全局特征互补。该方法在计算资源受限条件下显著提升了图像超分辨率性能，代码已开源。

2026-05-23 11:05:07 155

原创即插即用系列（代码实践） | CVPR 2025 FDConv：频域动态卷积，打破密集预测任务的参数效率瓶颈

本文提取自 CVPR 2025 的最新底层算子革新论文《Frequency Dynamic Convolution for Dense Image Prediction》。近年来，动态卷积（Dynamic Convolution）通过融合多个并行卷积核极大地提升了模型性能，但研究表明：这些并行卷积核在频域上的响应高度相似，导致了极其严重的参数浪费，且缺乏对不同频率特征的自适应能力。本文复现了该网络的核心架构——FDConv（频率动态卷积）。该方案创造性地在傅里叶域（Fourier Domain）中学习固定参

2026-05-23 10:43:30 15

原创即插即用系列（代码实践） | CVPR 2025 DICMP：基于深度信息辅助的图像去雾与深度估计双任务协同互促网络

摘要：本文提出一种深度信息辅助的单幅图像去雾协同互促网络（DCMPNet），通过融合RGB与深度信息解决图像去雾任务中的关键挑战。针对传统方法中Transformer与CNN特征割裂、多模态融合僵化的问题，设计了三大核心模块：LEGM（局部嵌入全局特征提取模块）结合窗口注意力与深度可分离卷积，平衡全局与局部特征；MFM（调制融合模块）通过空间-通道注意力实现智能特征加权；DRDB（膨胀残差密集块）以轻量级结构捕获多尺度信息。实验表明，该方案显著提升去雾效果，模块可灵活迁移至去雨、超分等底层视觉任务。

2026-05-23 10:14:15 28

原创即插即用系列（代码实践） | WACV 2024 CSAM：面向各向异性医学图像分割的 2.5D 跨切片注意力模块

文章摘要：论文《CSAM: A 2.5D Cross-Slice Attention Module for Anisotropic Volumetric Medical Image Segmentation》提出了一种解决医学图像各向异性问题的创新模块CSAM。针对MRI/CT数据中切片间分辨率差异大的挑战，该模块通过2.5D跨切片注意力机制，结合2D卷积的轻量性和3D上下文感知能力。核心包括语义注意力（通道级）、位置注意力（空间级）和跨切片注意力（支持不确定性建模），能在几乎不增加参数量的情况下有效捕捉

2026-04-26 08:50:51 37

原创即插即用系列（代码实践）| TGRS 2025 MGAM：面向遥感微小目标检测的多尺度高斯注意力机制

摘要：本文提出了一种多尺度高斯注意力机制（MGAM），用于遥感图像中的小目标检测。该方法通过多尺度特征提取（MFEM）、基于高斯分布的全局注意力（GAM）和动态权重模块（DWM），有效解决了传统注意力机制在微小目标检测中的局限性。GAM模块创新性地采用一维/二维高斯分布建模通道和空间注意力，显著提升了复杂背景下小目标的检测精度。该模块可即插即用于YOLO等架构，在遥感、无人机航拍和医学影像等小目标检测任务中表现出色，特别适合处理像素级微小目标和复杂背景干扰场景。

2026-04-26 08:35:21 890

原创即插即用系列（代码实践） | CVPR 2025：SCSegamba：轻量级结构感知 Mamba，重新定义裂缝分割 SOTA

摘要： SCSegamba是一种轻量级结构感知视觉Mamba模型，专为结构裂缝分割任务设计。针对细长、低对比度目标的断裂问题，该模型提出门控瓶颈卷积（GBC）和渐进式注意力融合（PAF）模块。GBC在Mamba序列化前增强局部结构先验，PAF通过高效注意力机制优化特征融合。实验表明，该方法在保持轻量化的同时有效提升裂缝分割精度，适用于工业缺陷检测和医疗影像分析。代码已开源。（字数：150）

2026-04-25 18:37:29 57

原创即插即用系列（代码实践） | CVPR 2024 RMT：既要全局感受野，又要 CNN 的局部性？一种拥有显式空间先验的线性 Transformer

本文提出RMT网络，将NLP领域的保留机制(Retentive Networks)引入视觉Transformer，解决传统自注意力在计算复杂度($O(N^2)$)和空间先验破坏方面的痛点。核心创新是Vision Retention机制，通过曼哈顿距离构建空间衰减矩阵，赋予模型自然的2D空间感知能力。该架构包含RetNetRelPos2d位置编码和VisionRetention算子，支持全局和分块计算，显著降低显存消耗。实验表明，RMT在高分辨率密集预测任务(如医学图像分割)中表现优异，可直接替换现有ViT架

2026-04-25 18:26:45 36

原创即插即用系列（代码实践） | arxiv 2025 CPDATrack：Transformer 跟踪新突破！上下文感知剪枝 + 判别式注意力，提速 37% 且精度超越 OSTrack

摘要：论文《CPDATrack》提出了一种针对Transformer跟踪器的创新方法，通过上下文感知令牌修剪（CATP）和判别性选择注意力（DSA）优化计算效率与跟踪鲁棒性。核心模块包括目标概率估计（TPE）预测令牌重要性，CATP在保留目标上下文的同时修剪冗余背景令牌，DSA通过掩码机制抑制相似干扰物的注意力干扰。实验表明，该方法在保持精度的同时显著提升推理速度（FPS翻倍），适用于复杂场景下的目标跟踪、高分辨率视觉任务等。代码已开源，支持即插即用集成到现有Transformer架构中。

2026-04-25 18:19:09 38

原创即插即用系列（代码实践） | CMPB PMFSNet：多尺度特征自注意力网络，打破轻量级医学图像分割的性能天花板

本文提出了一种轻量级医学图像分割网络PMFSNet，通过极化多尺度特征自注意力机制解决了现有大模型参数量过大、难以部署在边缘设备的问题。核心创新包括：极化自注意力机制（PMFS）：将通道与空间注意力解耦为并行的两路计算（PMCS和PMSS），在保持精度的同时将复杂度从O(N²)降为线性级别。全局极化多尺度特征块（GlobalPMFSBlock）：通过自适应池化统一多尺度特征，实现跨尺度全局交互，有效扩大感受野。密集特征堆叠（DFS）：采用深度可分离卷积构建多尺度局部感受野，显著降低参数量。该网络参数

2026-04-25 18:09:30 44

原创即插即用系列（代码实践） | ECCV 2024 SMFANet：轻量级图像超分新SOTA，自调制特征聚合网络详解

本文提出了一种轻量级自调制特征聚合网络SMFANet，用于高效图像超分辨率任务。该网络通过创新的自调制机制(SMFA)替代传统Transformer中的自注意力，显著降低了计算复杂度(O(N))，同时解决了自注意力导致的图像边缘过度平滑问题。核心模块包括并行的高效自注意力近似分支(EASA)和局部细节补偿分支(LDE)，结合部分卷积前馈网络(PCFN)进一步减少冗余计算。实验表明，该方法在保持重建质量的同时大幅提升了计算效率，尤其适合移动端和边缘设备部署。代码已开源，可即插即用于各类底层视觉任务。

2026-04-25 18:00:17 32

原创即插即用系列（代码实践） | ECCV 2024 WTConv：利用小波变换实现超大感受野的卷积神经网络

第三部分：关键模块解析 1. 小波变换核心组件 def wavelet_2d_transform(x, filters): b, c, h, w = x.shape pad = (filters.shape[2] // 2 - 1, filters.shape[3] // 2 - 1) x = F.conv2d(x, filters, stride=2, groups=c, padding=pad) x = x.reshape(b, c, 4, h // 2, w // 2) return x 频域分解：通

2026-04-19 18:22:52 62

原创即插即用系列（代码实践） | ICCV 2025 LEGNet：基于边缘-高斯聚合的轻量级遥感检测网络

本文提出了一种轻量级边缘高斯驱动网络（LEGNet），用于解决低质量遥感图像中的目标检测问题。针对遥感图像常见的低对比度、噪声和运动模糊等问题，该网络创新性地结合了Scharr边缘算子与高斯先验注意力机制，通过边缘高斯聚合（EGA）模块强化目标边缘特征，并利用动态感受野解码器（DRFD）自适应处理多尺度目标。该方法在恶劣成像环境下表现出色，能够有效提升微小目标的检测精度，适用于无人机图传、工业缺陷检测等多种场景。核心贡献包括：1）将传统边缘检测算子融入深度学习框架；2）动态调整感受野以适应目标尺度变化；3）

2026-04-19 18:03:39 76

原创即插即用系列（代码实践） | CVPR InceptionNeXt：当 Inception 遇上 ConvNeXt，大核卷积的速度瓶颈被打破了吗？

本文提出InceptionNeXt架构，通过创新的InceptionDWConv2d模块解决大卷积核带来的高内存访问成本问题。该模块采用四路并行分支设计（3×3小核、1×11和11×1条带卷积加恒等映射），在保持大感受野的同时显著降低计算延迟。实验表明，InceptionNeXt在精度与推理速度间取得平衡，适用于目标检测、高分辨率图像分割及移动端部署等场景。代码已开源，可直接替换现有网络主干实现"加量不加价"的效果。

2026-04-18 20:27:59 41

原创即插即用系列（代码实践）| CVPR BMCNet：手把手带你了解双向事件流超分辨率模型

本文提出了一种用于事件流超分辨率的双边事件挖掘与互补网络（BMCNet），解决了传统方法中正负极性事件混合处理导致信息干扰的问题。该网络采用"先解耦挖掘，后交叉互补"的双边处理范式，通过BEM模块独立提取正负事件特征，再利用BEC模块实现跨极性信息交互。实验表明，该方法能有效保留事件特有信息并提升超分辨率重建质量。该架构不仅适用于事件相机任务，也可扩展到RGB-D等多模态特征融合场景。论文代码已开源，为相关领域研究提供了即插即用的解决方案。

2026-04-18 20:10:22 49

原创即插即用系列（代码实践） | AAAI 2025FAMNet：频域感知匹配网络，跨域小样本医学图像分割

本文提出了一种名为FAMNet的频率感知匹配网络，用于解决跨域少样本医学图像分割中的两个关键问题：不同成像技术导致的跨域偏移和器官形态差异引起的原型漂移。该方法创新性地引入频域先验，通过快速傅里叶变换将特征解耦到不同频段，并采用注意力匹配机制和多光谱融合模块聚合特征。实验结果表明，FAMNet能有效打破模态壁垒，在极少量样本情况下显著提升分割性能。该框架具有通用性，可应用于跨域分割、少样本学习和图像去噪等任务。

2026-04-18 19:56:36 58

原创即插即用系列 | SCTNet: 协同CNN与Transformer，池化注意力融合的高光谱图像分类网络

本文提出了一种协同CNN-Transformer网络(SCTNet)用于高光谱图像分类，通过双分支特征提取模块(TBFE)并行利用2D和3D卷积捕获局部空间-光谱特征，并设计混合池化注意力模块(HPA)增强特征表示。该网络还引入跨层特征融合机制(CFF)聚合Transformer编码器的多层输出，有效保留浅层关键信息。实验结果表明，SCTNet在五个基准数据集上超越了现有方法，包括最新的SS-Mamba模型，在Salinas数据集上分类准确率达到98.67%。该网络通过CNN和Transformer的深度协

2026-04-17 20:28:36 564

原创即插即用系列（代码实践） | CVPR 2024 FADC：频域自适应空洞卷积，完美解决语义分割“网格效应”

摘要：本文提出了一种频率自适应空洞卷积（FADC）方法，用于解决语义分割中传统空洞卷积固定膨胀率导致的细节与上下文权衡问题。FADC通过频域分析动态调整空间膨胀率，在边缘（高频）和背景（低频）区域自适应优化卷积核响应。核心模块包括频率选择（FreqSelect）、自适应卷积核（AdaKern）和多膨胀率融合机制，显著提升分割精度（mIoU）且计算成本几乎不变。实验表明，FADC可即插即用替换标准卷积，适用于DeepLab等分割网络及图像超分辨率任务。代码已开源。（字数：150）

2026-04-17 20:07:05 1076

原创即插即用系列（代码实践） | WPFormer：基于小波与原型增强的双域 Transformer 表面缺陷检测网络

本文提取自 **CVPR** 顶会论文《Wavelet and Prototype Augmented Query-based Transformer for Pixel-level Surface Defect Detection》。在工业制造的表面缺陷检测（SDD）中，我们常常遇到两个极端难题：缺陷对比度极弱（Weak Defects），背景纹理极度杂乱（Cluttered Backgrounds）。传统的静态卷积或普通的 Transformer 往往难以在这样的干扰下精准定位病灶。

2026-03-16 21:20:35 64

原创即插即用系列（代码实践） | CVPR SwiftFormer：移动端推理新王者！0.8ms 延迟下 ImageNet 78.5% 准确率，吊打 MobileViT

摘要：论文《SwiftFormer: Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications》提出了一种高效的加性注意力模块（Efficient Additive Attention, EAA），用于解决传统Transformer在移动端部署时的计算瓶颈。该模块通过线性逐元素乘法替代昂贵的矩阵乘法，将计算复杂度从$O(N^2)$降至$O(N)$，并移除位置编码以优化推理速度。EAA支持全

2026-03-16 21:09:23 154

原创即插即用系列（代码实践） | CVPR 2024 ASTNet：图像复原新SOTA！自适应稀疏Transformer一网打尽去雨/去雾/去雨滴

自适应稀疏Transformer在图像复原中的应用本文提出了一种自适应稀疏自注意力模块(ASSA)，用于解决图像复原任务中传统Transformer计算复杂度高和固定稀疏模式僵化的问题。ASSA采用双分支结构：自适应稀疏分支：通过Top-k路由机制动态选择最相关特征进行全局交互，实现数据驱动的注意力计算；密集补偿分支：使用深度可分离卷积保留局部细节，弥补稀疏分支可能丢失的信息。实验表明，该模块在去雨、去雾等任务中能显著提升性能，同时降低计算开销。代码已开源，可即插即用于各类视觉Transformer

2026-03-14 15:14:25 58

原创即插即用系列（代码实践） | WACV 2024 D-LKA：超越 Transformer？D-LKA Net 如何用可变形大核卷积刷新医学图像分割

本文提出了一种可变形大核注意力（D-LKA）模块，用于医学图像分割中的不规则目标检测和病灶提取。针对传统大核注意力（LKA）固定感受野难以贴合病灶不规则形状的问题，D-LKA将可变形卷积与注意力机制结合，使感受野能够自适应目标边界变形。该模块通过可变形卷积学习偏移量，动态调整采样点位置，同时保留大核卷积的长距离上下文捕获能力。实验表明，D-LKA能有效提升不规则病灶的分割精度，适用于内窥镜息肉分割、多器官分割等任务。代码已开源，可即插即用集成到U-Net等架构中。

2026-03-14 14:48:17 54

原创即插即用系列（代码实践） | CVPR 2024注意力机制SCSA：空间与通道的完美协同，吊打CBAM/ECA

SCSA: 轻量级空间与通道挤压注意力模块本文介绍了一种高效的注意力机制SCSA，用于解决语义分割等密集预测任务中自注意力计算复杂度高的问题。SCSA通过并行通道挤压和空间挤压分支，利用轻量级的池化操作和1×1卷积聚合全局信息，显著降低了计算开销（O(N)复杂度）。该模块可无缝集成到FCN、U-Net等网络中，在不增加参数量的情况下提升边缘检测精度。实验表明，SCSA在保持轻量级特性的同时，特征表达能力优于传统注意力机制如SE和CBAM。代码已开源，支持即插即用式部署到各类视觉任务中。

2026-03-14 14:19:06 107

原创即插即用系列（代码实践） | WACV 2025 SvANet：专为极小目标（＜1%）设计的尺度变化注意力网络，医学图像分割新SOTA！

摘要：本文介绍了SvANet中的核心模块MCAttn（蒙特卡洛注意力）和SvAttn（尺度可变注意力），用于解决医学图像中微小目标分割的难题。这些模块通过多尺度注意力机制有效捕捉微小目标的特征，避免传统方法在下采样过程中的信息丢失。MCAttn采用不可知池化生成动态注意力图，SvAttn则根据特征尺度自适应调整权重。该框架可广泛应用于医学病灶分割、遥感检测等小目标场景，代码已开源实现即插即用模块。实验表明该方法显著提升了微小目标的分割精度。

2026-03-14 14:07:46 76

原创即插即用系列（代码实践） | CVPR 2024 ABC-Attention：基于双线性相关注意力的红外小目标检测

摘要：本文解析了2023年红外小目标检测经典论文《ABC: Attention with Bilinear Correlation for Infrared Small Target Detection》的核心模块。针对红外小目标检测中目标像素少、易被背景噪声淹没的痛点，论文提出三个创新模块：1）BAM双线性注意力模块，通过轻量级元素级相乘实现全局感知；2）CLFT模块，结合CNN局部特征提取与Transformer全局注意力；3）UCDC模块，采用U形扩张卷积保护深层微小特征。这些模块可有效提升小目标检测

2026-03-13 20:56:53 68

原创即插即用系列（代码实践）| CVPR 2024 MobileNetV4王者归来！倒残差模块（UIB）+移动注意力（Mobile） MQA打造全平台

本文提取自 **Google 2024年最新力作**《MobileNetV4: Universal Models for the Mobile Ecosystem》。针对现有轻量级网络在不同移动端硬件（CPU, DSP, GPU, NPU）上**难以实现通用加速**，以及**引入传统注意力机制导致推理延迟飙升**的痛点，复现并魔改了其核心组件。本代码不仅实现了 MNv4 的核心基石——**UIB（通用倒置瓶颈）**，还针对端侧场景创新性地融合了**解耦的轻量级双重注意力（Spatial & Channel

2026-03-13 20:43:50 42

原创即插即用系列（代码实践） | CVPR 2025 DFormerv2：用于Rgbd语义分割的几何自注意力

DFormerv2提出了一种创新的几何自注意力机制(GSA)，通过将深度图直接转化为3D几何先验来指导RGB特征的注意力分配。该方法摒弃了传统双流网络对深度图的冗余编码，转而计算特征块间的真实3D距离作为先验知识。核心组件包括几何先验生成器(GeoPriorGen)和几何自注意力模块(GSA)，前者从深度图和空间位置生成几何先验矩阵，后者将该先验融入标准自注意力机制。这种设计不仅大幅降低了计算量，还显著提升了RGB-D语义分割性能。代码已封装为即插即用模块，适用于各类多模态视觉任务。

2026-03-11 20:29:19 107

原创即插即用系列（代码实践） | TCSVT 2025 PG-DRFNet：基于“位置引导”与“动态感知卷积”的遥感小目标检测

摘要：本文提出了一种位置引导动态感受野网络(PG-DRFNet)，用于解决光学和SAR遥感图像中的小目标检测问题。针对小目标特征在下采样过程中易消失和全图密集计算导致推理速度慢的痛点，该方法创新性地设计了位置引导头(PGHead)和动态感知算法。PGHead通过浅层特征预测位置先验，防止小目标特征丢失；动态感知模块则基于位置先验智能选择关键区域进行精细计算，显著减少背景区域的无效计算。实验表明，该方法在保持精度的同时大幅提升了检测速度，为解决小目标检测中的"速度-精度"权衡问题提供了有效

2026-03-11 20:17:08 75

原创即插即用系列（代码实践） | TCSVT 2025 MFF-Net ：双分支 + 跨注意力，全局局部信息阴影检测

本文提取自 **2025年 IEEE TCSVT 顶刊** 最新论文《Multi-Level Feature Fusion Network for Shadow Removal Detection》。针对图像篡改检测（如阴影移除检测）或精细语义分割任务中，**局部篡改痕迹容易被全局信息淹没**，以及**多尺度/多分支特征融合时细节丢失**的痛点，复现了其核心组件——**SW-SAM（滑动窗口空间注意力）** 与 **CrossAttention（跨分支交叉注意力）**。这两大模块提供了一套极佳的“特征提纯与

2026-03-09 21:15:14 64

原创即插即用系列（代码实践） | MedIA 2025 CTO：融合 CNN、ViT 与显式算子 (Operator) 的医学分割新新突破！

摘要：本文提出了一种基于深度学习的医学图像分割新方法CTO，针对病灶边界模糊的问题，通过引入Sobel算子提取显式边缘先验，结合边界增强模块(BEM)和双注意力头(PAM+CAM)来提升分割精度。该方法在U-Net架构基础上创新性地融合多尺度特征和边界信息，显著改善了低对比度医学图像的分割效果。核心代码模块包括Res2Net多尺度特征提取、边界增强和双注意力机制，可直接集成到现有分割网络中。实验表明该方法能有效解决过分割和欠分割问题，适用于息肉、病灶等医学图像分割任务。

2026-03-09 20:52:58 69

原创即插即用系列（代码实践） | AAAI 2026 PartialNet：基于“部分注意力卷积”与“动态通道分割”的轻量级网络新标杆

摘要：论文《Partial Channel Network: Compute Fewer, Perform Better》提出轻量化主干网络PATConv（部分注意力卷积），通过通道切分机制（PCM）仅对部分通道应用注意力，其余通道保持轻量处理。该模块包含三种变体（PAT_ch/PAT_sp/PAT_sf），在目标检测/图像分类任务中显著降低计算量（FLOPs）的同时提升性能，适用于移动端视觉部署。实验表明其能有效平衡精度与效率，代码已开源。

2026-03-09 20:42:12 1044

原创即插即用系列（代码实践） | CVPR 2025 WPFormer：小波与原型增强Transformer——表面缺陷检测SOTA，专治弱缺陷与杂乱背景

摘要：本文提出了一种基于小波变换和原型增强的Transformer模型（WPFormer），用于像素级表面缺陷检测。该模型针对工业场景中微弱缺陷难以识别和杂乱背景干扰严重的问题，创新性地将小波变换引入Transformer的注意力机制，通过频域信息分离噪声与边缘特征，同时利用原型向量引导查询，实现了更精准的缺陷定位。核心模块包括小波增强交叉注意力（WCA）和原型引导交叉注意力（PCA），适用于工业缺陷检测、伪装目标检测和医学图像分割等任务。代码已开源，支持即插即用集成到现有框架中。

2026-02-10 20:36:36 189

原创即插即用系列 | TGRS 2025 ASCNet：残差Haar小波(RHDWT)与列非均匀校正(CNCM)-提升红外小目标检测精度

本文提出ASCNet网络用于红外图像去条纹任务，针对传统CNN方法难以捕捉全局列相关性和丢失高频纹理的问题。核心创新包括：1）RHDWT模块，利用残差Haar小波变换进行下采样，保留高频先验信息；2）CNCM模块，通过列非均匀性校正机制感知全局列特征。这两个模块可无缝集成到U-Net架构中，在保留纹理细节的同时有效消除条纹噪声。实验表明该方法在红外图像去条纹任务中表现优异，也可拓展应用于高光谱图像去噪等场景。代码已开源，便于研究复现和迁移应用。

2026-02-10 20:26:08 70

原创即插即用系列（代码实践）| TGRS 2025 GST-Net：残差注意力增强+空间与通道的双重过滤结合的红外小目标检测

摘要：本文提出了一种结合注意力机制的红外小目标检测模块Res_CBAM_block，用于解决复杂地面场景下目标微弱、易被噪声淹没的问题。该模块将通道注意力与空间注意力嵌入残差结构中，通过双重注意力机制增强目标特征并抑制背景干扰。实验表明，该模块可显著提升红外小目标的检测性能，适用于U-Net、FPN等多种网络架构的特征增强。相关代码已开源，为红外目标检测任务提供了即插即用的基础组件。

2026-02-09 19:45:38 882

原创即插即用系列（代码实践）| 2025 Strip R-CNN：大尺寸条形卷积——遥感目标检测新SOTA，专治细长目标（桥梁、船只）

摘要：论文《Strip R-CNN: Large Strip Convolution for Remote Sensing Object Detection》针对遥感图像中细长目标（如桥梁、道路）检测难题，提出创新性解决方案。通过设计StripBlock模块，将传统方形卷积核替换为大尺寸条形卷积（水平1×19与垂直19×1组合），有效捕获长距离空间特征，同时减少背景噪声。结合CenterPooling增强目标中心定位，该模块可即插即用至现有网络，显著提升遥感检测任务（如DOTA数据集）的精度。代码已开源，

2026-02-09 19:24:20 142

原创即插即用系列（代码实践） | CVPR 2025 HVI-CIDNet 解析：基于“HVI颜色空间”与“双分支解耦”的低光照图像增强新标杆

本文提出了一种新型色彩空间HVI（Horizontal/Vertical-Intensity）用于低光照图像增强。针对现有方法在sRGB空间易产生色偏、HSV空间易引入红色伪影和黑色噪声的问题，HVI通过极坐标映射和可学习强度分量，从数学底层解决了传统色彩空间的缺陷。配套的CIDNet网络采用双分支解耦结构，分别处理颜色和亮度分量。实验表明，该方法能有效提升图像增强的真实感，适用于低光照增强、去雾和水下图像增强等任务。代码已开源，可直接替换现有增强网络中的色彩处理模块。

2026-02-04 22:05:16 145

原创即插即用系列（代码实践） | CVPR 2025 MobileMamba 实战解析：轻量级+多感受野视觉 Mamba 网络

摘要：本文提出MobileMamba，一种轻量级多感受野视觉Mamba网络，解决了移动端视觉模型在长距离建模能力和推理效率之间的权衡问题。通过创新性地结合小波变换增强的Mamba（WTE-Mamba）和多核深度卷积（MK-DeConv），该模型实现了全局频率信息与局部多尺度特征的高效交互。实验表明，MobileMamba在保持轻量化的同时，显著提升了移动端设备的推理吞吐量，成为当前最强的移动端视觉Mamba解决方案之一。该模型可广泛应用于轻量级Backbone替换、目标检测和实时语义分割等场景。

2026-02-04 21:35:30 111

即插即用系列 - CVPR 2024 RMT：既要全局感受野，又要 CNN 的局部性？显式空间先验的线性 Transformer

空空如也