自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(137)
  • 收藏
  • 关注

原创 即插即用系列 | SCTNet: 协同CNN与Transformer,池化注意力融合的高光谱图像分类网络

本文提出了一种协同CNN-Transformer网络(SCTNet)用于高光谱图像分类,通过双分支特征提取模块(TBFE)并行利用2D和3D卷积捕获局部空间-光谱特征,并设计混合池化注意力模块(HPA)增强特征表示。该网络还引入跨层特征融合机制(CFF)聚合Transformer编码器的多层输出,有效保留浅层关键信息。实验结果表明,SCTNet在五个基准数据集上超越了现有方法,包括最新的SS-Mamba模型,在Salinas数据集上分类准确率达到98.67%。该网络通过CNN和Transformer的深度协

2026-04-17 20:28:36 238

原创 即插即用系列(代码实践) | CVPR 2024 FADC:频域自适应空洞卷积,完美解决语义分割“网格效应”

摘要: 本文提出了一种频率自适应空洞卷积(FADC)方法,用于解决语义分割中传统空洞卷积固定膨胀率导致的细节与上下文权衡问题。FADC通过频域分析动态调整空间膨胀率,在边缘(高频)和背景(低频)区域自适应优化卷积核响应。核心模块包括频率选择(FreqSelect)、自适应卷积核(AdaKern)和多膨胀率融合机制,显著提升分割精度(mIoU)且计算成本几乎不变。实验表明,FADC可即插即用替换标准卷积,适用于DeepLab等分割网络及图像超分辨率任务。代码已开源。 (字数:150)

2026-04-17 20:07:05 116

原创 即插即用系列(代码实践) | WPFormer:基于小波与原型增强的双域 Transformer 表面缺陷检测网络

本文提取自 **CVPR** 顶会论文《Wavelet and Prototype Augmented Query-based Transformer for Pixel-level Surface Defect Detection》。在工业制造的表面缺陷检测(SDD)中,我们常常遇到两个极端难题:缺陷对比度极弱(Weak Defects),背景纹理极度杂乱(Cluttered Backgrounds)。传统的静态卷积或普通的 Transformer 往往难以在这样的干扰下精准定位病灶。

2026-03-16 21:20:35 33

原创 即插即用系列(代码实践) | CVPR SwiftFormer:移动端推理新王者!0.8ms 延迟下 ImageNet 78.5% 准确率,吊打 MobileViT

摘要: 论文《SwiftFormer: Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications》提出了一种高效的加性注意力模块(Efficient Additive Attention, EAA),用于解决传统Transformer在移动端部署时的计算瓶颈。该模块通过线性逐元素乘法替代昂贵的矩阵乘法,将计算复杂度从$O(N^2)$降至$O(N)$,并移除位置编码以优化推理速度。EAA支持全

2026-03-16 21:09:23 130

原创 即插即用系列(代码实践) | CVPR 2024 ASTNet:图像复原新SOTA!自适应稀疏Transformer一网打尽去雨/去雾/去雨滴

自适应稀疏Transformer在图像复原中的应用 本文提出了一种自适应稀疏自注意力模块(ASSA),用于解决图像复原任务中传统Transformer计算复杂度高和固定稀疏模式僵化的问题。ASSA采用双分支结构: 自适应稀疏分支:通过Top-k路由机制动态选择最相关特征进行全局交互,实现数据驱动的注意力计算; 密集补偿分支:使用深度可分离卷积保留局部细节,弥补稀疏分支可能丢失的信息。 实验表明,该模块在去雨、去雾等任务中能显著提升性能,同时降低计算开销。代码已开源,可即插即用于各类视觉Transformer

2026-03-14 15:14:25 31

原创 即插即用系列(代码实践) | WACV 2024 D-LKA:超越 Transformer?D-LKA Net 如何用可变形大核卷积刷新医学图像分割

本文提出了一种可变形大核注意力(D-LKA)模块,用于医学图像分割中的不规则目标检测和病灶提取。针对传统大核注意力(LKA)固定感受野难以贴合病灶不规则形状的问题,D-LKA将可变形卷积与注意力机制结合,使感受野能够自适应目标边界变形。该模块通过可变形卷积学习偏移量,动态调整采样点位置,同时保留大核卷积的长距离上下文捕获能力。实验表明,D-LKA能有效提升不规则病灶的分割精度,适用于内窥镜息肉分割、多器官分割等任务。代码已开源,可即插即用集成到U-Net等架构中。

2026-03-14 14:48:17 23

原创 即插即用系列(代码实践) | CVPR 2024注意力机制SCSA:空间与通道的完美协同,吊打CBAM/ECA

SCSA: 轻量级空间与通道挤压注意力模块 本文介绍了一种高效的注意力机制SCSA,用于解决语义分割等密集预测任务中自注意力计算复杂度高的问题。SCSA通过并行通道挤压和空间挤压分支,利用轻量级的池化操作和1×1卷积聚合全局信息,显著降低了计算开销(O(N)复杂度)。该模块可无缝集成到FCN、U-Net等网络中,在不增加参数量的情况下提升边缘检测精度。实验表明,SCSA在保持轻量级特性的同时,特征表达能力优于传统注意力机制如SE和CBAM。代码已开源,支持即插即用式部署到各类视觉任务中。

2026-03-14 14:19:06 69

原创 即插即用系列(代码实践) | WACV 2025 SvANet:专为极小目标(<1%)设计的尺度变化注意力网络,医学图像分割新SOTA!

摘要:本文介绍了SvANet中的核心模块MCAttn(蒙特卡洛注意力)和SvAttn(尺度可变注意力),用于解决医学图像中微小目标分割的难题。这些模块通过多尺度注意力机制有效捕捉微小目标的特征,避免传统方法在下采样过程中的信息丢失。MCAttn采用不可知池化生成动态注意力图,SvAttn则根据特征尺度自适应调整权重。该框架可广泛应用于医学病灶分割、遥感检测等小目标场景,代码已开源实现即插即用模块。实验表明该方法显著提升了微小目标的分割精度。

2026-03-14 14:07:46 42

原创 即插即用系列(代码实践) | CVPR 2024 ABC-Attention:基于双线性相关注意力的红外小目标检测

摘要:本文解析了2023年红外小目标检测经典论文《ABC: Attention with Bilinear Correlation for Infrared Small Target Detection》的核心模块。针对红外小目标检测中目标像素少、易被背景噪声淹没的痛点,论文提出三个创新模块:1)BAM双线性注意力模块,通过轻量级元素级相乘实现全局感知;2)CLFT模块,结合CNN局部特征提取与Transformer全局注意力;3)UCDC模块,采用U形扩张卷积保护深层微小特征。这些模块可有效提升小目标检测

2026-03-13 20:56:53 39

原创 即插即用系列 (代码实践)| CVPR 2024 MobileNetV4王者归来!倒残差模块(UIB)+移动注意力(Mobile) MQA打造全平台

本文提取自 **Google 2024年最新力作**《MobileNetV4: Universal Models for the Mobile Ecosystem》。针对现有轻量级网络在不同移动端硬件(CPU, DSP, GPU, NPU)上**难以实现通用加速**,以及**引入传统注意力机制导致推理延迟飙升**的痛点,复现并魔改了其核心组件。本代码不仅实现了 MNv4 的核心基石——**UIB(通用倒置瓶颈)**,还针对端侧场景创新性地融合了**解耦的轻量级双重注意力(Spatial & Channel

2026-03-13 20:43:50 24

原创 即插即用系列(代码实践) | CVPR 2025 DFormerv2:用于Rgbd语义分割的几何自注意力

DFormerv2提出了一种创新的几何自注意力机制(GSA),通过将深度图直接转化为3D几何先验来指导RGB特征的注意力分配。该方法摒弃了传统双流网络对深度图的冗余编码,转而计算特征块间的真实3D距离作为先验知识。核心组件包括几何先验生成器(GeoPriorGen)和几何自注意力模块(GSA),前者从深度图和空间位置生成几何先验矩阵,后者将该先验融入标准自注意力机制。这种设计不仅大幅降低了计算量,还显著提升了RGB-D语义分割性能。代码已封装为即插即用模块,适用于各类多模态视觉任务。

2026-03-11 20:29:19 60

原创 即插即用系列(代码实践) | TCSVT 2025 PG-DRFNet:基于“位置引导”与“动态感知卷积”的遥感小目标检测

摘要:本文提出了一种位置引导动态感受野网络(PG-DRFNet),用于解决光学和SAR遥感图像中的小目标检测问题。针对小目标特征在下采样过程中易消失和全图密集计算导致推理速度慢的痛点,该方法创新性地设计了位置引导头(PGHead)和动态感知算法。PGHead通过浅层特征预测位置先验,防止小目标特征丢失;动态感知模块则基于位置先验智能选择关键区域进行精细计算,显著减少背景区域的无效计算。实验表明,该方法在保持精度的同时大幅提升了检测速度,为解决小目标检测中的"速度-精度"权衡问题提供了有效

2026-03-11 20:17:08 50

原创 即插即用系列(代码实践) | TCSVT 2025 MFF-Net :双分支 + 跨注意力,全局局部信息阴影检测

本文提取自 **2025年 IEEE TCSVT 顶刊** 最新论文《Multi-Level Feature Fusion Network for Shadow Removal Detection》。针对图像篡改检测(如阴影移除检测)或精细语义分割任务中,**局部篡改痕迹容易被全局信息淹没**,以及**多尺度/多分支特征融合时细节丢失**的痛点,复现了其核心组件——**SW-SAM(滑动窗口空间注意力)** 与 **CrossAttention(跨分支交叉注意力)**。这两大模块提供了一套极佳的“特征提纯与

2026-03-09 21:15:14 49

原创 即插即用系列(代码实践) | MedIA 2025 CTO:融合 CNN、ViT 与显式算子 (Operator) 的医学分割新新突破!

摘要:本文提出了一种基于深度学习的医学图像分割新方法CTO,针对病灶边界模糊的问题,通过引入Sobel算子提取显式边缘先验,结合边界增强模块(BEM)和双注意力头(PAM+CAM)来提升分割精度。该方法在U-Net架构基础上创新性地融合多尺度特征和边界信息,显著改善了低对比度医学图像的分割效果。核心代码模块包括Res2Net多尺度特征提取、边界增强和双注意力机制,可直接集成到现有分割网络中。实验表明该方法能有效解决过分割和欠分割问题,适用于息肉、病灶等医学图像分割任务。

2026-03-09 20:52:58 28

原创 即插即用系列(代码实践) | AAAI 2026 PartialNet:基于“部分注意力卷积”与“动态通道分割”的轻量级网络新标杆

摘要:论文《Partial Channel Network: Compute Fewer, Perform Better》提出轻量化主干网络PATConv(部分注意力卷积),通过通道切分机制(PCM)仅对部分通道应用注意力,其余通道保持轻量处理。该模块包含三种变体(PAT_ch/PAT_sp/PAT_sf),在目标检测/图像分类任务中显著降低计算量(FLOPs)的同时提升性能,适用于移动端视觉部署。实验表明其能有效平衡精度与效率,代码已开源。

2026-03-09 20:42:12 1018

原创 即插即用系列(代码实践) | CVPR 2025 WPFormer:小波与原型增强Transformer——表面缺陷检测SOTA,专治弱缺陷与杂乱背景

摘要:本文提出了一种基于小波变换和原型增强的Transformer模型(WPFormer),用于像素级表面缺陷检测。该模型针对工业场景中微弱缺陷难以识别和杂乱背景干扰严重的问题,创新性地将小波变换引入Transformer的注意力机制,通过频域信息分离噪声与边缘特征,同时利用原型向量引导查询,实现了更精准的缺陷定位。核心模块包括小波增强交叉注意力(WCA)和原型引导交叉注意力(PCA),适用于工业缺陷检测、伪装目标检测和医学图像分割等任务。代码已开源,支持即插即用集成到现有框架中。

2026-02-10 20:36:36 127

原创 即插即用系列 | TGRS 2025 ASCNet:残差Haar小波(RHDWT)与列非均匀校正(CNCM)-提升红外小目标检测精度

本文提出ASCNet网络用于红外图像去条纹任务,针对传统CNN方法难以捕捉全局列相关性和丢失高频纹理的问题。核心创新包括:1)RHDWT模块,利用残差Haar小波变换进行下采样,保留高频先验信息;2)CNCM模块,通过列非均匀性校正机制感知全局列特征。这两个模块可无缝集成到U-Net架构中,在保留纹理细节的同时有效消除条纹噪声。实验表明该方法在红外图像去条纹任务中表现优异,也可拓展应用于高光谱图像去噪等场景。代码已开源,便于研究复现和迁移应用。

2026-02-10 20:26:08 56

原创 即插即用系列(代码实践)| TGRS 2025 GST-Net: 残差注意力增强+空间与通道的双重过滤结合的红外小目标检测

摘要:本文提出了一种结合注意力机制的红外小目标检测模块Res_CBAM_block,用于解决复杂地面场景下目标微弱、易被噪声淹没的问题。该模块将通道注意力与空间注意力嵌入残差结构中,通过双重注意力机制增强目标特征并抑制背景干扰。实验表明,该模块可显著提升红外小目标的检测性能,适用于U-Net、FPN等多种网络架构的特征增强。相关代码已开源,为红外目标检测任务提供了即插即用的基础组件。

2026-02-09 19:45:38 855

原创 即插即用系列(代码实践)| 2025 Strip R-CNN:大尺寸条形卷积——遥感目标检测新SOTA,专治细长目标(桥梁、船只)

摘要: 论文《Strip R-CNN: Large Strip Convolution for Remote Sensing Object Detection》针对遥感图像中细长目标(如桥梁、道路)检测难题,提出创新性解决方案。通过设计StripBlock模块,将传统方形卷积核替换为大尺寸条形卷积(水平1×19与垂直19×1组合),有效捕获长距离空间特征,同时减少背景噪声。结合CenterPooling增强目标中心定位,该模块可即插即用至现有网络,显著提升遥感检测任务(如DOTA数据集)的精度。代码已开源,

2026-02-09 19:24:20 121

原创 即插即用系列(代码实践) | CVPR 2025 HVI-CIDNet 解析:基于“HVI颜色空间”与“双分支解耦”的低光照图像增强新标杆

本文提出了一种新型色彩空间HVI(Horizontal/Vertical-Intensity)用于低光照图像增强。针对现有方法在sRGB空间易产生色偏、HSV空间易引入红色伪影和黑色噪声的问题,HVI通过极坐标映射和可学习强度分量,从数学底层解决了传统色彩空间的缺陷。配套的CIDNet网络采用双分支解耦结构,分别处理颜色和亮度分量。实验表明,该方法能有效提升图像增强的真实感,适用于低光照增强、去雾和水下图像增强等任务。代码已开源,可直接替换现有增强网络中的色彩处理模块。

2026-02-04 22:05:16 112

原创 即插即用系列(代码实践) | CVPR 2025 MobileMamba 实战解析:轻量级+多感受野视觉 Mamba 网络

摘要: 本文提出MobileMamba,一种轻量级多感受野视觉Mamba网络,解决了移动端视觉模型在长距离建模能力和推理效率之间的权衡问题。通过创新性地结合小波变换增强的Mamba(WTE-Mamba)和多核深度卷积(MK-DeConv),该模型实现了全局频率信息与局部多尺度特征的高效交互。实验表明,MobileMamba在保持轻量化的同时,显著提升了移动端设备的推理吞吐量,成为当前最强的移动端视觉Mamba解决方案之一。该模型可广泛应用于轻量级Backbone替换、目标检测和实时语义分割等场景。

2026-02-04 21:35:30 72

原创 即插即用系列(代码实践) | AAAI 2025 SOTAConDSeg:基于“语义信息解耦”与“对比驱动聚合”的通用医学图像分割新标杆

本文提出了一种基于对比驱动特征增强的通用医学图像分割框架ConDSeg,针对医学图像中常见的边界模糊和背景干扰问题,设计了语义信息解耦(SID)和对比驱动特征聚合(CDFA)两个核心模块。SID模块将特征显式解耦为前景、背景和不确定区域,CDFA模块利用对比机制增强特征表达。该方法可作为即插即用模块集成到U-Net等网络架构中,特别适用于息肉分割、肿瘤分割等边界模糊的医学图像分割任务。实验表明,该框架能有效提升分割精度,改善边缘分割质量。

2026-02-02 21:39:32 55

原创 即插即用系列(代码实践)| CVPR 2025 EfficientViM:基于“隐状态混合SSD”与“多阶段融合”的轻量级视觉 Mamba 新标杆

本文提出了一种基于隐藏状态混合器(HSM-SSD)的高效视觉Mamba模型EfficientViM,旨在解决Mamba-2在移动端部署时输入投影层计算瓶颈的问题。该模型创新性地在压缩的隐藏状态中进行通道混合,而非直接处理庞大的输入序列,从而显著降低了计算量(FLOPs)和内存访问成本。HSM-SSD模块通过多阶段状态融合和精简的SSD层设计,在保持全局感受野的同时实现了轻量化,适用于移动端轻量级主干网络、实时语义分割/检测等场景。实验表明,该方法是目前移动端视觉Mamba的最优解决方案。

2026-02-02 21:22:10 180

原创 即插即用系列 | AAAI 2026 WaveFormer: 当视觉建模遇上波动方程,频率-时间解耦的新SOTA

本文提出了一种名为 WaveFormer 的全新视觉骨干网络,旨在解决现有 Transformer 计算复杂度高以及基于“热传导”物理模型容易导致特征过度平滑的问题。核心思想是将特征图视为一种空间信号,利用**欠阻尼波动方程(Underdamped Wave Equation)来建模其随网络深度的演化过程。通过推导该方程在频域的闭式解,作者设计了 波传播算子(WPO),实现了频率与时间的解耦,使得模型既能以的线性复杂度进行全局建模,又能有效保留高频细节(如边缘、纹理

2026-01-28 20:38:56 843

原创 即插即用系列(代码实践)| TGRS 2025 GLVMamba:基于“全局-局部空间”与“尺度感知金字塔池化”的遥感图像分割,完美解决Mamba局部特征丢失问题

本文提出GLVMamba模型,针对遥感图像分割任务中CNN感受野有限、Transformer计算量大、Mamba忽视局部细节的问题,创新性地设计了全局-局部视觉状态空间模型。核心模块GLSS2D通过全局分支(改进的2D选择性扫描机制)捕获长距离上下文信息,局部分支(局部空间增强)提取高频细节,并采用动态门控融合策略自适应平衡全局与局部特征。实验表明该模型在遥感图像分割任务中实现了精度与效率的平衡,适用于医学图像分割等需要兼顾全局结构和局部细节的场景。官方代码已开源,支持即插即用替换传统注意力模块。

2026-01-25 09:40:29 106

原创 即插即用系列 | TGRS 2025 FSCFNet: 频域与空域的协奏曲,YOLOv10赋能红外小目标检测

本文提出了一种频域-空域融合网络FSCFNet,用于红外小目标检测。针对红外图像信噪比低、目标微小的问题,该方法在YOLOv10n架构基础上引入三个关键模块:FSConv通过小波变换分离处理高低频特征,ACA利用非对称注意力增强目标响应,MRCB采用多尺度空洞卷积捕捉上下文。实验表明,该方法在SIRST等数据集上mAP达83.5%,同时保持实时检测速度。这些模块也可迁移至其他小目标检测任务。

2026-01-25 09:20:24 982

原创 即插即用系列(代码实践)| AAAI 2026 TDC:时间差分卷积——红外小目标检测新SOTA,3D卷积与运动差分的完美结合

本文提出了一种新型时间差分卷积(TDC)模块,用于移动红外小目标检测任务。该模块在标准3D卷积中引入显式帧间差分约束,有效解决了传统方法在捕捉微弱目标运动轨迹时的局限性。TDC通过多尺度时空感知和重参数化设计,既能精确提取运动特征,又能保持高效推理。实验表明,该方法在红外小目标检测、视频动作识别等任务中显著优于传统3D卷积和帧差法。核心创新在于将时间差分算子嵌入3D卷积核,实现了运动特征的显式建模与高效计算。

2026-01-24 09:27:56 73

原创 即插即用系列 | AAAI 2025 Mesorch:CNN与Transformer的双剑合璧:基于频域增强与自适应剪枝的篡改定位

本文提出了一种名为 Mesorch 的新型架构,用于图像篡改定位任务。该模型创新性地引入"介观"概念,通过并行结合 CNN(捕捉微观纹理)和 Transformer(提取宏观语义),并辅以频域双流增强与自适应加权模块,实现了多尺度特征的高效融合。实验表明,Mesorch 在多个基准数据集上达到 SOTA 性能,同时通过二次剪枝策略大幅降低计算成本(FLOPs 减少约50%)。该工作为图像取证领域提供了兼顾精度与效率的新思路,其频域分离和自适应加权模块也可迁移至其他视觉任务。代码已开源。

2026-01-24 08:59:07 848

原创 即插即用系列(代码实践)| CVPR SCConv:空间注意力与通道注意力重建3X3卷积——消除特征冗余

本文提取自 CVPR 2023顶会论文《SCConv: Spatial and Channel Reconstruction Convolution for Feature Redundancy》。针对传统卷积神经网络(CNN)中普遍存在的空间冗余和通道冗余导致计算资源浪费的痛点,复现了其核心组件——**SCConv(空间和通道重建卷积)。该模块包含 SRU(空间重建单元) 和 CRU(通道重建单元) 两部分,可以直接替代网络中现有的 标准卷积,在减少参数量和

2026-01-22 20:23:21 912

原创 即插即用系列 | CVPR 2025 SegMAN: Mamba与局部注意力强强联合,多尺度上下文注意力的新SOTA

本文提出了 SegMAN,一个线性时间复杂度的语义分割模型,旨在同时解决高效全局建模、高质量局部细节保留和多尺度特征提取三大难题。其核心创新在于编码器引入了 **LASS(Local Attention and State Space)*模块,巧妙结合了用于局部细节的滑动窗口注意力(Natten)和用于全局建模的动态状态空间模型(VMamba/SS2D)。同时,解码器设计了 MMSCopE 模块,利用Mamba机制在单次扫描中自适应地处理多尺度特征。实验表明,SegMAN在ADE20K、

2026-01-22 19:58:01 883

原创 即插即用系列(代码实践)| SST :Mamba+Transformer混合专家——时序预测新范式,完美融合线性效率与局部精度

本文提出了一种创新的混合架构SST,通过结合Mamba和Transformer的优势,解决了长期时间序列预测中的关键挑战。针对Transformer计算复杂度高和Mamba信息压缩过度的问题,SST采用多尺度混合专家设计:Mamba分支捕捉长期趋势,Transformer分支处理短期波动,并通过动态融合头(Fusion Head)实现自适应特征融合。实验表明,该方法在效率和精度上达到最佳平衡,适用于电力负荷、交通流量等多周期数据预测任务。核心模块包括序列分解、可逆归一化和路由机制,支持即插即用集成到现有模型

2026-01-21 19:40:32 40

原创 即插即用系列 | CVPR 2025 MK-UNet: 多核深度可分离卷积,重新定义轻量级医学图像分割

摘要:本文提出MK-UNet,一种超轻量级医学图像分割网络,通过**多核深度卷积(MKDC)**实现多尺度特征提取,仅需0.316M参数和0.314G FLOPs。核心创新包括:1)多核倒残差模块(MKIR)高效编码特征;2)分组注意力门(GAG)优化特征融合;3)纯CNN架构避免Transformer计算开销。实验表明,MK-UNet在六个医学数据集上超越TransUNet(参数量少333倍)和UNeXt(精度提升显著),为轻量化模型设计提供了新思路。代码已开源。 (字数:150) 关键词:轻量级CNN、

2026-01-21 18:46:20 990

原创 即插即用系列(代码实践)| AAAI 2025 TBSN:基于Transformer的盲点网络——自监督去噪新SOTA,彻底解决注意力机制信息泄露难题

论文摘要: 本文提出了一种基于Transformer的盲点网络(TBSN)用于自监督图像去噪,解决了传统Transformer在盲点网络应用中存在的信息泄露问题。通过创新设计扩张分组通道注意力(Dilated G-CSA)和扩张掩码窗口注意力(Dilated M-WSA)两个核心模块,TBSN在保持Transformer强大建模能力的同时,严格遵守盲点约束。该方法突破了自监督去噪领域长期被CNN架构主导的局面,为无参考图像去噪提供了新的解决方案。实验表明,该网络在医学图像去噪、低光照增强等缺乏成对训练数据的

2026-01-20 22:19:13 191

原创 即插即用系列 | CVPR 2025 AmbiSSL:首个注释模糊感知的半监督医学图像分割框架

本文提出了一个名为 AmbiSSL 的新颖框架,旨在同时解决医学图像分割中“高质量标注稀缺”和“专家标注存在歧义(Ambiguity)”两大难题。核心思想是利用随机剪枝(Randomized Pruning)**构建多样化的解码器,从而在无标签数据上生成多样性的伪标签(Diverse Pseudo-labels)。结合半监督隐分布学习(SSLDL),模型能够利用极少量的多专家标注数据和海量无标签数据,学习到一个能够生成多种合理分割结果的共享隐空间,从而模拟临床诊断中的真实不确定性。

2026-01-20 21:52:42 836

原创 即插即用系列(代码实践) | AMD核心模块:自适应多尺度分解框架——纯MLP架构吊打Transformer,时间序列预测新SOTA

本文提出了一种用于时间序列预测的自适应多尺度分解框架(AMD),旨在解决现有方法在计算复杂度和多尺度模式捕捉方面的不足。AMD基于MLP架构,通过多尺度分解混合(MDM)、双重依赖交互(DDI)和自适应混合机制,有效解耦复杂的时间序列模式。实验表明,该框架在长时序预测任务中,以更低的参数量和更快的速度超越了主流Transformer模型。AMD特别适用于电力负荷预测、气象预报等场景,并适合轻量化部署。核心创新在于可学习的多尺度分解机制和动态权重调整策略,为时间序列预测提供了高效且强大的新方法。

2026-01-19 19:25:50 270

原创 即插即用系列 | CVPR 2025 CATANet:一种用于轻量级图像超分辨率的高效内容感知 Token 聚合网络

本文提出CATANet网络,通过内容感知Token聚合(CATA)模块解决轻量级图像超分辨率中长距离依赖建模的效率问题。CATA在训练阶段学习全局共享的Token中心,推理时直接使用固定中心进行特征聚合,避免了传统聚类方法的高计算开销。结合组内自注意力(IASA)和组间交叉注意力(IRCA),模型能高效捕捉全局相似纹理。实验表明,CATANet在PSNR指标上超越SPIN方法0.33dB,同时推理速度快近一倍,实现了性能与效率的最佳平衡。该方法的Token聚合策略具有通用性,可迁移至其他视觉任务。

2026-01-19 19:05:24 816

原创 即插即用系列(代码实践)| CVPR Agent Attention:集成Softmax与线性注意力——无损加速Stable Diffusion,高分辨率生成的显存救星

本文提出了一种新型注意力机制——Agent Attention,旨在解决标准Softmax Attention在高分辨率图像处理中的计算复杂度问题。该机制通过引入一组可学习的代理Token作为中介,实现了Softmax注意力的聚焦能力和线性注意力的高效计算的融合。实验表明,在Stable Diffusion等高分辨率生成任务中,Agent Attention可实现2倍以上的推理加速,同时保持图像质量。该模块适用于视觉Transformer加速、高分辨率图像生成和目标检测等任务,为解决大尺度图像处理中的计算瓶

2026-01-18 15:42:07 63

原创 即插即用系列(代码实践)| AAAI 2025,PConv & SD Loss 详解!融合风车卷积与动态损失的涨点新范式。

本文提出了一种自适应点对点卷积(APConv)方法,用于解决遥感图像全色锐化中的空间错位和光谱失真问题。传统方法在处理全色图像(PAN)与多光谱图像(MSI)融合时,往往忽略了两者间的精细对应关系。APConv通过动态偏移量学习建立像素级精准映射,实现了特征层面的自动对齐。该方法包含自适应点对点映射和动态特征对齐两个核心机制,能够显著提升融合质量。实验表明,该模块可作为即插即用组件应用于现有网络,不仅适用于遥感图像融合,还可拓展至多模态图像融合和超分辨率等任务。

2026-01-18 15:17:38 54

原创 即插即用系列 | AAAI 2026 LWGANet:一种解决遥感图像小目标“空间注意力与通道注意力双重冗余”的轻量级模块

本文提出了一种轻量级主干网络LWGANet,针对遥感图像处理中的空间冗余和通道冗余问题进行了优化。通过设计轻量级分组注意力模块(LWGA)将特征解耦为不同尺度的子空间,并结合Top-K全局特征交互模块(TGFI)实现稀疏计算,显著降低了计算成本。实验表明,LWGANet在场景分类、目标检测等四大任务的12个数据集上均优于现有轻量级模型,同时保持极低的参数量(1.72M)。该方法的核心创新在于异构分组策略和稀疏采样机制,为遥感图像处理提供了高效解决方案。

2026-01-18 10:33:02 864

原创 即插即用系列(代码实践)专栏介绍

即插即用系列代码实践专栏简介

2026-01-17 22:50:17 1570

即插即用系列 - CVPR 2024 RMT:既要全局感受野,又要 CNN 的局部性?显式空间先验的线性 Transformer

即插即用系列 - CVPR 2024 RMT:既要全局感受野,又要 CNN 的局部性?显式空间先验的线性 Transformer

2025-12-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除