- 博客(282)
- 收藏
- 关注
原创 YOLOv11魔改高效涨点 | 注意力篇 | CAA:上下文锚点注意力机制,条形卷积 + 全局先验,低成本实现 360 度全局视野,轻量化捕捉超大感受野,即插即用,彻底疯狂!!!
遥感图像(RSIs)中的目标检测经常面临若干日益增长的挑战,包括目标尺度的巨大变化和分布广泛的上下文环境。先前的方法试图通过扩大主干网络的空间感受野来解决这些挑战,主要通过大核卷积或空洞卷积。然而,前者通常会引入可观的背景噪声,而后者则存在生成过于稀疏特征表示的风险。在本文中,我们引入了多核 Inception 网络(Poly Kernel Inception Network, PKINet)来处理上述挑战。PKINet 采用不带空洞的多尺度卷积核来提取不同尺度的目标特征并捕获局部上下文。
2026-01-20 16:03:21
27
原创 YOLOv11魔改高效涨点 | 注意力篇 | DAT注意力:可变形自注意力,结合变形卷积之魂,动态捕捉全局核心特征,让 Transformer 拥有“动态猫眼”,精准锁定目标,彻底疯狂!!!
Transformer 最近在各种视觉任务中表现出了卓越的性能。庞大的、有时甚至是全局的感受野赋予了 Transformer 模型比其 CNN 竞争对手更高的表征能力。然而,简单地扩大感受野也会引起一些担忧。一方面,使用密集注意力(例如在 ViT 中)会导致过度的内存和计算开销,并且特征可能会受到利益区域之外不相关部分的影响。另一方面,PVT 或 Swin Transformer 中采用的稀疏注意力是数据不可知的,可能会限制建模长程关系的能力。
2026-01-20 15:27:13
28
原创 YOLOv11魔改高效涨点 | 注意力篇 | SimAM注意力:基于神经科学的 3D 注意力机制,三维权重的暴力美学,无参数也能暴力涨点?代码极简,彻底疯狂!!!
在本文中,我们为卷积神经网络(ConvNets)提出了一个概念简单但非常有效的注意力模块。与现有的通道注意力(Channel-wise)和空间注意力(Spatial-wise)模块不同,我们的模块在不向原始网络添加参数的情况下,推断出层中特征图的 3D 注意力权重。具体来说,我们基于一些知名的神经科学理论,提出优化一个能量函数来寻找每个神经元的重要性。我们进一步推导出了该能量函数的快速闭式解,并表明该解可以用不到十行代码实现。
2026-01-20 15:02:45
53
原创 YOLOv11魔改高效涨点 | 注意力篇 | EMA 注意力:摆脱维度压缩困境,在 Batch 维度玩转多尺度特征,从坐标注意力到多尺度跨空间交互,助力你的论文性能起飞!!!
通道或空间注意力机制在产生更具判别力的特征表示方面表现出了显著的效果。然而,通过通道降维来建模跨通道关系可能会在提取深层视觉表征时产生副作用。本文提出了一种新型的高效多尺度注意力(EMA)模块。为了保留每个通道上的信息并降低计算开销,我们将部分通道重塑到 Batch 维度,并将通道维度分组为多个子特征,使得空间语义特征在每个特征组内分布均匀。具体而言,除了通过编码全局信息来重新校准每个并行分支中的通道权重外,两个并行分支的输出特征还通过跨维度交互进一步聚合,以捕捉像素级的成对关系。我们在图像分类和目标检测任
2026-01-19 15:18:51
174
原创 YOLOv11魔改高效涨点 | 注意力篇 | CAFM:卷积与注意力深度融合新范式,全局局部特征两手抓,专治特征丢失,轻量化高效增强,助力模型精准度疯狂起飞!!!
高光谱图像(HSI)去噪对于高光谱数据的有效分析和解释至关重要。然而,同时建模全局和局部特征以增强 HSI 去噪的研究较少。在本文中,我们提出了一种混合卷积和注意力网络(HCANet),它结合了卷积神经网络(CNN)和 Transformer 的优势。为了增强全局和局部特征的建模,我们设计了一个卷积和注意力融合模块,旨在捕捉长程依赖关系和邻域光谱相关性。此外,为了改进多尺度信息的聚合,我们设计了一个多尺度前馈网络,通过提取不同尺度的特征来增强去噪性能。
2026-01-19 14:48:46
37
原创 YOLOv11魔改高效涨点 | 注意力篇 | DilateFormer:模拟生物视觉的多尺度空洞注意力机制,打破感受野瓶颈,性能暴力起飞,彻底疯狂!!!
本文提出了一种名为DilateFormer的新型视觉Transformer架构,其核心创新是多尺度扩张自注意力(MSDA)机制。该机制通过在不同注意力头中采用不同扩张率,模拟生物视觉系统的多尺度特性,能够同时捕获局部细节和全局上下文信息。相比标准Transformer,MSDA将计算复杂度从O(N²)显著降低,同时保持了较大的感受野。实验表明,DilateFormer在图像分类、目标检测和语义分割任务上均表现优异,特别适合处理高分辨率图像和移动端应用。文章还详细介绍了如何将该模块集成到YOLOv11框架中,
2026-01-18 21:21:18
136
原创 【深度学习小课堂】| torch | 给张量“瘦身”与“扩容”:深度拆解 PyTorch 中 squeeze 与 squeeze 的维度魔法,squeeze与squeeze 到底会不会导致信息丢失?
维度为 1 的位置有元素吗?有,且只有一个。移除会丢失信息吗?不会。数值、精度、顺序完全不变。什么时候移除?当你需要把数据送入那些“嫌弃”多余维度的层(比如全连接层 Linear),或者你想简化索引时。什么时候保留?当你需要进行张量之间的算术运算(加减乘除),且需要维度对齐时。你可以把 squeeze 想象成脱掉外壳。壳子没了,但核心的内容物始终都在。在深度学习中,张量总元素个数是不变的,改变的只是我们看待它的视角。掌握squeeze和unsqueeze。
2026-01-18 20:13:24
835
原创 【深度学习小课堂】| torch | 升维打击还是原位拼接?深度解码 PyTorch 中 stack 与 cat 的几何奥义
特性torch.cat维度数量保持不变增加 1 维输入约束仅拼接维可不等,其余必相等所有维度必须完全相等底层逻辑在现有轴上延伸先unsqueeze再cat典型应用通道拼接、特征融合多分支加权、序列建模如果你想把多个特征图合并成一个更厚的特征图(通道数增加),请找 cat。如果你想把多个独立的分支结果排好队,以便后续做多分支加权(如 SKNet、Video 处理),请找 stack。理解stack与cat的区别,是通往深度学习高手之路的必经门槛。cat是广度的积累,而stack是深度。
2026-01-18 19:34:34
927
原创 YOLOv11魔改高效涨点 | 注意力篇 | SKAttention:像人眼一样感知尺度,自适应调节感受野,打破固定卷积核瓶颈,即插即用涨点神器,彻底疯狂!!!
在标准的卷积神经网络(CNN)中,每一层人工神经元的感受野大小都被设计成相同的。在神经科学界,众所周知视觉皮层神经元的感受野大小是受刺激调制的,这在构建 CNN 时很少被考虑到。我们提出了一种 CNN 中的动态选择机制,允许每个神经元根据输入信息的多尺度自适应地调整其感受野大小。设计了一个称为选择性卷积核(Selective Kernel, SK)单元的构建块,其中具有不同卷积核大小的多个分支使用由这些分支中的信息引导的 softmax 注意力进行融合。
2026-01-18 19:00:28
25
原创 YOLOv11魔改高效涨点 | 注意力篇 | NAMAttention:利用BN缩放因子实现极轻量化建模,参数量骤降,彻底疯狂!!!
识别不显著特征是模型压缩的关键。然而,在革命性的注意力机制中,这一点尚未得到研究。在这项工作中,我们提出了一种新型的基于归一化的注意力模块(NAM),它可以抑制不显著的权重。它对注意力模块应用了权重稀疏惩罚,从而使它们在保持相似性能的同时更具计算效率。在 ResNet 和 MobileNet 上与其他三种注意力机制的比较表明,我们的方法具有更高的准确率。NAM 模块重新利用了批归一化层中的缩放因子,通过训练过程中的稀疏化处理,将其转化为注意力权重。核心机制BBNAγA−μBσB2。
2026-01-18 15:40:00
65
原创 YOLOv11魔改高效涨点 | 注意力篇 | DoubleAttention:首创“全局聚合+定制分发”双重逻辑,二阶特征池化实现全空间感知,即插即用,彻底疯狂!!!
捕获长程关系是图像/视频识别的基础。现有的 CNN 模型通常依赖于增加深度来建模此类关系,这显得非常低效。在这项工作中,我们提出了“双重注意力模块”(double attention block),这是一种新型组件,它可以聚合并传播来自输入图像/视频整个时空空间的有效全局特征,从而使后续卷积层能够高效地访问整个空间的特征。该组件设计了一种分两步走的双重注意力机制:第一步通过二阶注意力池化(second-order attention pooling)将整个空间的特征聚合为一个紧凑集;
2026-01-18 14:32:29
34
原创 【深度学习小课堂】| torch | 你的特征被“稀释”了吗?深度剖析 nn.AdaptiveAvgPool2d 的原理与陷阱
传统的池化层需要你告诉它:“我想用 的窗口来扫描”。而自适应池化则是你告诉它:“无论输入多大,我最终只要 的输出它会自动计算内部的和stride,从而保证输出尺寸的固定。这在处理全连接层(FC)之前的特征对齐时至关重要。特性传统 AvgPool2d参数焦点窗口大小、步长输出目标尺寸灵活性输入改变,输出随之改变输入改变,输出始终固定典型场景固定感受野的下采样特征融合、注意力机制、FC层输入对齐💡 结语不仅仅是一个简单的降维工具。通过(None, 1)
2026-01-18 14:21:44
771
原创 YOLOv11魔改高效涨点 | 注意力篇 | 坐标注意力CoordAttention:将位置信息硬核嵌入通道,精准捕获长程空间依赖,即插即用,涨点神器!!!
近期关于移动网络设计的研究已经证明了通道注意力(例如 Squeeze-and-Excitation 注意力)对于提升模型性能的显著有效性,但它们通常忽略了位置信息,而位置信息对于生成具有空间选择性的注意力图非常重要。在本文中,我们通过将位置信息嵌入通道注意力,提出了一种适用于移动网络的新型注意力机制,我们称之为“坐标注意力”。与通过 2D 全局池化将特征张量转换为单个特征向量的通道注意力不同,坐标注意力将通道注意力分解为两个 1D 特征编码过程,分别沿两个空间方向聚合特征。
2026-01-17 21:57:10
594
原创 YOLOv11魔改高效涨点 | 注意力篇 | SCSA:空间通道协同黑科技,超越现有即插即用注意力,空间引导通道重新校准,多语义信息深度交互,涨点直接起飞,科研缝合必备!!!
摘要:本文提出了一种新颖的空间与通道协同注意力模块(SCSA),通过可共享多语义空间注意力(SMSA)和渐进式通道自注意力(PCSA)的协同作用,探索空间和通道注意力间的交互效应。SCSA采用多尺度卷积捕捉空间信息,并通过通道自注意力缓解语义差异,在ImageNet分类、MSCOCO检测等7个基准测试中表现优异。该模块具有轻量级、即插即用特性,可集成到多种骨干网络中,在复杂场景下展现出强大的泛化能力。
2026-01-17 20:24:09
583
原创 YOLOv11魔改高效涨点 | 注意力篇 | CONTAINER:上下文增强网络,让卷积拥有Transformer 的视野,微小目标检测全线飘红,彻底疯狂!!
本文提出了一种通用的上下文聚合网络CONTAINER,通过可学习参数融合静态关联矩阵(卷积/MLP的归纳偏置)和动态关联矩阵(Transformer的长程交互)。该模块在ImageNet上仅用22M参数即达到82.7%准确率,相比DeiT-Small提升2.8%,且收敛更快。下游任务中,CONTAINER-LIGHT版本在目标检测和实例分割任务上显著优于ResNet-50。该方法统一了CNN、Transformer和MLP的架构差异,兼具局部归纳偏置和全局建模能力,在数据效率和计算效率方面表现优异。
2026-01-17 16:08:49
30
原创 【深度学习】一文带你搞懂深度学习中的浅层信息和深层信息的联系和区别!
是的,深层特征是“被下采样很多次的小图”:这指的是它的空间尺寸。它牺牲了精细的空间细节(精确坐标)。同时,它包含“全局的高级信息”:这是因为它的每个像素都拥有巨大的感受野,并且其数值代表的是经过高度抽象和提炼的语义概念(是什么物体、什么场景)。简单来说:网络用“空间精度”换取了“语义深度”。这种权衡对于需要高级理解的视觉任务(如分类、检测)来说是极其高效和有效的。而对于需要同时恢复细节的任务(如图像分割),才会通过类似U-Net的跳跃连接,把浅层的空间细节“借回来”与深层的语义信息进行融合。
2026-01-06 17:30:10
854
原创 【即插即用模块】AAAI2025 | 高频 + 空间感知!新 HS-FPN 让“极小目标”不再消失!SCI保二区争一区!彻底疯狂!!!
针对 FPN 在小目标检测中存在的 “特征有限、缺乏关注、空间感知不足” 三大问题,提出 HS-FPN 网络,通过高频感知模块(HFP)和空间依赖感知模块(SDP)增强小目标特征表达与空间关联性;在 AI-TOD、DOTA_minil0 等数据集上验证,相比基线模型 AP 提升 1.2-3.4 个百分点,且易嵌入现有检测框架。高频特征增强:HFP 模块(High Frequency Perception)通过 DCT + 高通滤波器 提取高频响应,专门增强微小目标的“边缘/细节”特征。
2025-12-17 20:12:13
922
原创 【即插即用模块】SCI1区 IF 15.5!| 空间注意力融合模块聚合结构细节,跨注意力融合模块捕捉全局语义,兼顾细粒度与上下文!SCI保二区争一区!彻底疯狂!!!
现有红外与可见光图像融合算法多侧重视觉效果,语义驱动方法未充分挖掘图像级融合相对于特征级融合的潜力,而特征级融合存在计算量大、泛化性差、适配新骨干网络繁琐等问题。为此,本文提出 PSFusion 网络,包含场景恢复分支(含图像融合路径与场景保真路径)和稀疏语义感知分支。通过稀疏语义感知分支提取边界、语义、二值分割等多维度语义特征,借助渐进语义注入模块融入融合网络;场景保真路径约束融合特征保留源图像完整信息;基于对比掩码和显著目标掩码的融合损失保证视觉效果。
2025-12-17 14:25:38
506
原创 【即插即用模块】SCI1区 | CNN为什么不能捕获长距离特征?双坐标注意力牛在哪:平均+最大池化并行,涨点必备,SCI保二区争一区!彻底疯狂!!!
药用花卉在医疗、制药、化妆品等领域具有重要价值,且对保护生物多样性至关重要,但野外环境下的精准分类面临类内差异大、类间相似性高、背景复杂等挑战。现有深度学习方法(如 CNN、Transformer)难以有效捕捉花瓣纹理、花部结构等复杂特征,且存在局部依赖过强、位置信息丢失等问题。本文提出 Flora-NET 网络,通过两个核心模块实现特征提取与细化:1)双坐标注意力特征提取(DCAFE)模块,采用并行平均池化与最大池化捕捉长距离依赖和位置信息;
2025-12-17 13:48:51
1062
原创 【即插即用模块】ECCV2024 | 频率域 × 空间域 = 全局感知!揭秘 Fused Fourier Convolution Mixer,涨点必备,SCI保二区争一区!彻底疯狂!!!
单图像去雨(SID)是低层次图像恢复的关键任务,现有基于 Transformer 的方法虽能通过全局建模实现高质量重建,但存在空间域全局建模计算成本高、负样本中雨纹模式信息未充分利用的问题。为此,本文提出 FADformer 框架:通过融合频域与空域特征的 FFCM 模块实现高效全局 - 局部建模,通过引入残差通道先验的 PGFN 模块增强局部细节修复,再结合频域对比正则化(FCR)充分利用负样本信息。
2025-12-13 11:25:59
968
原创 【即插即用模块】AAAI2026 | MHCB+DPA:特征提取+双池化注意力,涨点必备,SCI保二争一!彻底疯狂!!!
该网络构建于 UNet++ 架构之上,创新性地集成状态空间模型(State-Space Model),旨在仅通过单张 PAN 图像输入,实现超分辨率、光谱恢复(即着色)、以及二者联合的高质量图像复原。:传统注意力机制常单独用平均池化,DPA额外引入最大池化,能更好捕捉特征图中显著、高激活度的信息(如边缘和纹理),与平均池化关注的全局平滑信息互补,实现更全面的特征信息保留和增强。:用于替代UNet++中的标准跳跃连接,旨在通过动态调整通道权重来优化特征传递,使模型能聚焦于更重要的特征通道。
2025-12-12 16:22:37
1016
原创 【即插即用模块】LEG:边缘-高斯-双注意力,非常涨点的三重增强轻量模块,即插即用彻底疯狂!
随后,特征图在四个阶段中被逐步处理。阶段之间通过下采样模块降低分辨率,最终生成1/4, 1/8, 1/16, 和1/32四种尺度的特征图,供后续的检测头使用。遥感图像目标检测(RSOD)任务常受到低空间分辨率、传感器噪声、运动模糊及不利光照等多重降质因素的困扰。这些因素削弱了目标的特征独特性,导致表示模糊和前景-背景分离困难。现有方法,特别是轻量化模型,在处理低质量目标时表现出局限性。为应对这些挑战,本文提出了一种名为LEGNet的轻量级骨干网络,其核心是新颖的边缘-高斯聚合(EGA)模块。
2025-12-04 15:26:40
576
原创 【深度学习即插即用模块】EfficientChannelAttention,涨点必备彻底疯狂!
摘要:ECA-Net是一种轻量级通道注意力机制,旨在以极低计算开销提升卷积网络性能。其核心创新包括:1) 移除降维操作保留通道信息完整性;2) 使用自适应一维卷积核捕捉局部通道依赖;3) 通过全局平均池化、一维卷积和Sigmoid激活实现高效计算(复杂度O(C×k));4) 模块化设计可即插即用。相比SENet,ECA-Net避免了信息损耗,参数更少,能灵活适配不同网络层,在分类、检测等任务中表现优异。代码实现仅需少量参数即可完成通道注意力重标定。
2025-11-29 17:46:56
353
原创 【目标检测】热力图可视化脚本
YOLOv11热力图可视化工具 这是一个基于YOLOv11模型的热力图可视化脚本,支持多种计算机视觉任务。该脚本提供了以下功能: 多任务支持:可用于目标检测、实例分割、姿态检测、旋转目标检测和分类任务 多种CAM方法:支持GradCAM++、GradCAM、XGradCAM、EigenCAM等多种热力图生成方法 图像预处理:包含标准的letterbox预处理函数,保持图像比例的同时进行填充 激活与梯度处理:通过ActivationsAndGradients类提取中间层特征和梯度信息 使用该脚本可以直观地展示
2025-11-13 16:29:31
420
原创 【Engineering Applications of Artificial Intelligence 1区TOP】一种用于冷轧钢带表面缺陷检测的高效检测器
表面缺陷检测在冷轧钢带制造中至关重要,这是由于生产环境的复杂性和涉及的高速度。此外,冷轧钢带上的缺陷通常具有尺寸小、类型多样以及不同类型之间相似性高的特点,这在平衡检测精度和效率方面构成了重大挑战。为应对这些挑战,我们基于“You Only Look Once version 5(YOLOv5)”设计了一种检测器,以实现对冷轧钢带表面缺陷的精确检测。首先,我们构建了一个包含七种缺陷类型的数据集,命名为冷轧钢带缺陷数据集(CR7-DET)。
2025-11-12 22:21:29
683
原创 【Measurement 2区TOP】FPDNet:一种用于热轧带钢表面缺陷的快速高精度检测网络
表面缺陷检测对热轧带钢的质量保证至关重要。现有检测模型因缺陷的尺寸差异和低对比度而存在较高漏检率,且计算复杂,导致检测速度缓慢。为解决这些问题,本文提出一种基于YOLOv8的新型快速高精度检测网络(FPDNet)。首先,FPDNet采用高性能GPU网络V2(HGNetv2)作为骨干网络,利用其出色的特征提取能力,并结合GhostConv以实现模型轻量化。其次,提出Csp高效可变形层注意力模块(CEDLAM),以动态感知空间信息,自适应捕捉目标形状和尺度的变化,增强多线性特征关系以聚焦目标关键区域。
2025-11-11 16:16:23
738
原创 【Pattern Recognition 1区TOP】用于钢表面缺陷检测的全局注意力模块与级联融合网络
钢表面缺陷检测在当代社会中发挥着关键作用,保障建筑和制造业的质量与安全,降低生产成本,提高效率,并推动技术创新。然而,这项任务面临诸多挑战,包括处理非结构化特征、多尺度问题以及可用数据稀缺的问题。为了克服这些挑战,本文提出了一种用于钢表面缺陷检测的全局注意力模块和级联融合网络,称为GC-Net。在该网络中,全局注意力模块的提出是为了增强模型处理非结构化缺陷的能力。随后,设计了级联融合网络用于多尺度特征融合,从而提高对不同尺度缺陷的检测精度。
2025-11-11 13:28:34
950
原创 【Advanced Engineering Informatics 1区TOP】ELA-YOLO:一种基于线性注意力的高效钢铁表面缺陷检测方法
深度学习方法在钢铁表面缺陷检测中的研究显著提升了产品质量和制造效率。然而,实际工业场景面临诸多挑战,包括颜色、光照、反射条件等环境因素的变化,这些因素会影响缺陷的可见性。此外,缺陷在大小和形状上存在差异,有些缺陷非常小或隐蔽,难以准确检测。待检测图像的复杂纹理进一步增加了计算成本,往往为了追求高精度而牺牲了效率。在本文中,我们提出了一种名为ELA-YOLO的新型缺陷检测方法,以YOLOv8作为基础框架。首先,我们在网络中引入线性注意力以提高模型的表示能力,同时控制计算复杂度。其次,我们提出了选择性特征金字塔
2025-11-11 10:23:25
351
原创 【AAAI 2025】无人机目标检测的自提示类比推理
无人机目标检测(UAVOD)面临着高度变化、动态背景以及目标尺寸小等独特挑战。传统检测方法往往难以应对这些问题,因为它们通常仅依赖视觉特征,无法提取目标之间的语义关系。为解决这些局限性,我们提出了一种名为自提示类比推理(SPAR)的新方法。该方法利用视觉语言模型(CLIP)基于图像特征生成上下文感知提示,提供丰富的语义信息以指导类比推理。SPAR 包含两个主要模块:自提示模块和类比推理模块。自提示模块基于可学习描述和 CLIP 文本编码器,通过结合特定图像特征生成上下文感知提示;
2025-11-10 10:57:19
494
原创 【ACM 2025】跨范式表示与对齐的图像去雨 Transformer
本文提出了一种跨范式表示的图像去雨Transformer(CPRAformer),通过整合空间-通道与全局-局部两种表征范式,解决了单幅图像去雨任务中雨条纹复杂分布和背景纹理保持的难题。方法包含稀疏通道注意力(SPC-SA)、空间像素精细注意力(SPR-SA)、自适应频域对齐模块(AAFM)和多尺度流门控网络(MSGN),在8个基准数据集上取得SOTA表现,PSNR指标最高提升1.01dB。实验表明该方法在去雾、语义分割等任务上也具有良好泛化性。核心创新在于跨范式动态交互机制和频域对齐策略,为低层视觉任务提
2025-09-20 20:20:21
1144
原创 【ICLR 2024】MogaNet:多阶门控聚合网络
MogaNet是一种结合多阶特征交互与门控聚合机制的卷积神经网络架构。该网络通过多阶门控聚合机制有效捕获中阶交互特征,在ImageNet-1K上达到87.8%的Top-1精度,并在多个视觉任务上超越主流模型。创新点包括:从博弈论视角分析卷积网络交互行为,设计多阶空间聚合和通道重分配模块,突出中阶特征表达。实验表明,MogaNet在分类、检测、分割等任务中表现优异,同时保持计算高效性。核心代码展示了其多阶膨胀深度卷积的实现方式,通过不同膨胀率的卷积核捕获多层次特征。
2025-09-20 19:29:19
992
原创 【ICCV 2023】通过学习采样来学习上采样
本文提出了一种新颖的动态上采样方法DySample,通过重新定义上采样为点采样过程,有效解决了传统动态卷积上采样方法(如CARAFE、FADE等)存在的计算复杂度高、需要高分辨率引导特征等问题。DySample采用采样点生成器预测偏移量,通过优化采样点初始化、偏移范围约束和分组机制等关键技术,在保持轻量化的同时实现了优异的性能。实验表明,在语义分割、目标检测、实例分割、全景分割和单目深度估计等五大密集预测任务中,DySample均超越现有方法,且计算复杂度显著降低。该方法完全基于PyTorch原生函数实现,
2025-09-20 19:01:59
1169
原创 【CVPR 2025】用于密集图像预测的频率动态卷积
本文提出FDConv(Frequency Dynamic Convolution),通过三个创新模块解决动态卷积在频率域响应同质化的问题。FDW模块实现频率解耦,KSM模块进行空间调制,FBM模块动态调节频段。该方法在COCO等数据集上的目标检测、语义分割等任务中优于现有动态卷积方法(如CondConv、ODConv),仅增加3.6M参数即可获得显著性能提升(如ResNet-50在ADE20K上mIoU达43.8),且兼容CNN和Transformer架构,具有高效性和通用性优势。
2025-09-18 22:37:39
696
原创 【CVPR 2024】EMCAD:用于医学图像分割的高效多尺度卷积注意力解码器
EMCAD解码器提出了一种高效的医学图像分割方法,结合多尺度深度可分离卷积和通道/空间/组卷积注意力机制。该模型在12个医学分割数据集上取得SOTA性能,同时参数和计算量减少约80%。核心创新包括MSCAM多尺度注意力模块、LGAG大核组卷积门和高效上采样设计。实验表明,EMCAD在保持精度的同时显著提升效率,适合临床实时应用。
2025-09-18 16:33:05
807
原创 【深度学习】1*1卷积你不能不知道的知识!
1×1卷积是深度学习中一种特殊的卷积操作,其核心作用在于通道维度的特征变换与信息融合。它能够灵活实现通道的降维或升维(如从256通道降至64通道),显著减少计算量,在GoogLeNet等网络中作为"瓶颈层"使用。此外,1×1卷积可增加网络非线性表达能力,实现跨通道信息交互,并在轻量化网络(如MobileNet)中发挥关键作用。其数学本质是逐像素的全连接层,参数量仅为普通K×K卷积的1/K²,能高效完成特征压缩与通道注意力映射(如SENet)。典型应用包括Inception模块的降维
2025-09-18 10:34:32
1078
原创 【ECCV 2018】CBAM:卷积块注意力模块
CBAM是一种轻量级的卷积块注意力模块,通过顺序结合通道注意力和空间注意力机制,提升CNN特征表达能力。该模块采用双重注意力设计,通道注意力使用平均和最大池化捕捉全局特征,空间注意力关注关键位置。实验表明,CBAM在ImageNet分类、COCO和VOC检测等任务上显著提升性能(如ResNet-50错误率降低1.9%),且几乎不增加计算量。模块结构简单,可即插即用集成到各种CNN架构中,成为注意力机制研究的重要基线。
2025-09-18 10:21:22
814
原创 【深度学习】什么是过拟合,什么是欠拟合?遇到的时候该如何解决该问题?
机器学习中的过拟合和欠拟合是两种常见问题。过拟合指模型在训练数据上表现优秀,但无法泛化到新数据,通常因模型过于复杂导致;欠拟合则是模型过于简单,无法捕捉数据规律,导致训练和新数据表现均差。解决过拟合可通过增加数据、正则化、简化模型等方法;应对欠拟合则可提升模型复杂度、增加特征、减少正则化等。两者分别对应"死记硬背"和"学习不足"的情况,需采取不同策略优化模型性能。
2025-09-17 18:01:50
1108
原创 【深度学习】PixelShuffle处理操作
PixelShuffle是通过重排特征图的像素,将多个低分辨率的子像素合并成一个高分辨率图像的高效方法。这种方法减少了传统超分辨率方法中常见的高分辨率卷积操作的计算复杂度,并提高了图像超分辨率任务的处理速度与效率。
2025-09-16 21:10:22
1529
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1