- 博客(248)
- 收藏
- 关注

原创 【深度学习图像领域通天计划】学习计划&&路线汇总&&经典必学&&科研人
本文汇总了计算机视觉领域的经典神经网络模型与发展历程,涵盖了图像分类、目标检测、图像分割等多个任务。从1998年LeNet-5开创CNN先河,到2012年AlexNet引发深度学习革命,再到2017年后Transformer架构的兴起(如ViT、Swin Transformer),以及轻量化网络(MobileNet系列)和自动架构搜索(MnasNet)等创新。图像分割领域从FCN、U-Net到2023年SAM模型,展示了从语义分割到通用分割的演进。表格形式整理了各模型的核心贡献与发表时间,反映了计算机视觉技
2025-09-13 21:49:00
669
原创 【CVPR 2024】EMCAD:用于医学图像分割的高效多尺度卷积注意力解码器
EMCAD解码器提出了一种高效的医学图像分割方法,结合多尺度深度可分离卷积和通道/空间/组卷积注意力机制。该模型在12个医学分割数据集上取得SOTA性能,同时参数和计算量减少约80%。核心创新包括MSCAM多尺度注意力模块、LGAG大核组卷积门和高效上采样设计。实验表明,EMCAD在保持精度的同时显著提升效率,适合临床实时应用。
2025-09-18 16:33:05
264
原创 【深度学习】1*1卷积你不能不知道的知识!
1×1卷积是深度学习中一种特殊的卷积操作,其核心作用在于通道维度的特征变换与信息融合。它能够灵活实现通道的降维或升维(如从256通道降至64通道),显著减少计算量,在GoogLeNet等网络中作为"瓶颈层"使用。此外,1×1卷积可增加网络非线性表达能力,实现跨通道信息交互,并在轻量化网络(如MobileNet)中发挥关键作用。其数学本质是逐像素的全连接层,参数量仅为普通K×K卷积的1/K²,能高效完成特征压缩与通道注意力映射(如SENet)。典型应用包括Inception模块的降维
2025-09-18 10:34:32
337
原创 【ECCV 2018】CBAM:卷积块注意力模块
CBAM是一种轻量级的卷积块注意力模块,通过顺序结合通道注意力和空间注意力机制,提升CNN特征表达能力。该模块采用双重注意力设计,通道注意力使用平均和最大池化捕捉全局特征,空间注意力关注关键位置。实验表明,CBAM在ImageNet分类、COCO和VOC检测等任务上显著提升性能(如ResNet-50错误率降低1.9%),且几乎不增加计算量。模块结构简单,可即插即用集成到各种CNN架构中,成为注意力机制研究的重要基线。
2025-09-18 10:21:22
349
原创 【深度学习】什么是过拟合,什么是欠拟合?遇到的时候该如何解决该问题?
机器学习中的过拟合和欠拟合是两种常见问题。过拟合指模型在训练数据上表现优秀,但无法泛化到新数据,通常因模型过于复杂导致;欠拟合则是模型过于简单,无法捕捉数据规律,导致训练和新数据表现均差。解决过拟合可通过增加数据、正则化、简化模型等方法;应对欠拟合则可提升模型复杂度、增加特征、减少正则化等。两者分别对应"死记硬背"和"学习不足"的情况,需采取不同策略优化模型性能。
2025-09-17 18:01:50
445
原创 【深度学习】PixelShuffle处理操作
PixelShuffle是通过重排特征图的像素,将多个低分辨率的子像素合并成一个高分辨率图像的高效方法。这种方法减少了传统超分辨率方法中常见的高分辨率卷积操作的计算复杂度,并提高了图像超分辨率任务的处理速度与效率。
2025-09-16 21:10:22
772
原创 【CVPR 2016】基于高效亚像素卷积神经网络的实时单幅图像与视频超分辨率
本文提出了一种基于子像素卷积的高效超分辨率方法ESPCN,能够在低分辨率空间直接提取特征并重建高分辨率图像。相比传统方法,ESPCN避免了高分辨率卷积计算,显著提升了运算速度(快10倍)和重建质量(PSNR提升0.15-0.39dB)。该方法尤其适用于实时视频超分辨率应用,在保持渐近高斯分布的同时扩展了有效感受野。实验表明ESPCN在多个基准数据集上都优于现有方法,实现了速度与精度的双重突破。
2025-09-16 20:37:28
548
原创 【ICCV 2025】UniConvNet:扩展有效感受野并保持对任何规模的卷积神经网络的渐近高斯分布
UniConvNet提出了一种新型卷积神经网络架构,通过三层感受野聚合器(RFA)和层操作器(LO)的创新设计,在扩展有效感受野(ERF)的同时保持了渐近高斯分布(AGD)。该方法克服了传统大卷积核导致分布失真的问题,采用中等大小卷积核(7×7至11×11)逐层叠加的策略,既扩大了感受野又维持了高斯特性。实验表明,UniConvNet在ImageNet-1K等视觉任务上表现优异,其轻量级模型(30M参数)达到84.2% Top-1准确率,超越了现有CNN和ViT模型。该工作为平衡感受野扩展与分布特性提供了新
2025-09-16 19:42:11
846
2
原创 【AAAI2025】FBRT-YOLO:更快更优的实时航拍图像检测方法
本文提出FBRT-YOLO模型,针对航拍图像小目标检测问题,设计了两个轻量模块:FCM模块通过融合浅层空间位置特征与深层语义特征,解决信息失配问题;MKP模块利用多尺度卷积核增强不同尺寸目标的感知能力。在VisDrone等数据集上的实验表明,该模型在减少23%-74%参数量的同时,精度提升0.6%-2.3%,显著优于YOLOv8/YOLOv10等现有方法,实现了精度与效率的更好平衡。核心创新在于轻量化设计思路,有效解决了航拍场景下小目标检测的难题。
2025-09-16 17:21:49
523
原创 【深度学习】GFLOPs和FLOPs以及FLOPS的关系
GFLOPs是衡量模型计算复杂度的关键指标,表示十亿次浮点运算(1 GFLOP=10⁹ FLOPs)。其计算方式为:卷积层FLOPs=输入输出通道数×卷积核大小²×输出特征图尺寸/分组数,再将各层FLOPs总和除以10⁹即得模型总GFLOPs。例如,一个7×7卷积层处理224×224输入时约0.12GFLOPs。该指标与参数量共同评估模型轻量化程度,需注意区分FLOP(单次运算)、FLOPs(总运算量)和FLOPS(硬件算力单位)的概念差异。
2025-09-16 16:17:01
671
原创 【深度学习】普通卷积、DWconv(逐深度卷积)与PWconv(逐点卷积)以及DSconv(深度可分离卷积)
深度可分离卷积(Depthwise Separable Convolution)通过将常规卷积分解为逐通道卷积(Depthwise)和逐点卷积(Pointwise)两步,显著减少了参数量和计算成本。常规卷积同时提取空间和通道特征,而深度可分离卷积先对每个通道单独进行空间卷积,再用1×1卷积调整通道数。以输入3通道、输出4通道的64×64图像为例,常规卷积需108个参数,而深度可分离卷积仅需39个参数,减少了约2/3。这种结构在轻量级网络(如MobileNet)中广泛应用,可在保持性能的同时降低计算资源需求。
2025-09-16 16:06:17
1161
原创 【CVPR 2025】LSNet:大视野感知,小区域聚合
清华大学团队提出LSNet模型,通过创新的LS卷积(Large-Small Convolution)模拟人类视觉机制,结合大卷积核感知(LKP)获取全局上下文和小卷积核动态聚合(SKA)捕捉局部细节。该模型在ImageNet分类(80.3% Top-1)、COCO检测/分割及ADE20K语义分割(43.0 mIoU)等任务上超越MobileNet、EfficientViT等轻量模型,同时保持高效计算。实验表明LSNet在精度、速度和鲁棒性方面达到最佳平衡,为轻量化视觉网络提供了新思路。
2025-09-14 17:43:56
859
原创 【目标检测】metrice_curve和loss_curve对比图可视化
本文展示了一个目标检测模型的训练结果可视化代码。通过Python的matplotlib库,该代码绘制了多个评估指标和损失函数的训练曲线,包括精度(precision)、召回率(recall)、mAP50和mAP50-95等指标,以及训练/验证阶段的box_loss、dfl_loss和cls_loss损失函数。代码对数据进行了预处理,处理了无限值和缺失值,并将不同模型(yolo11s、yolo12s、yolo13s和ours)的结果进行对比展示。最终生成了两张综合图表(metrice_curve.png和lo
2025-09-13 21:23:21
224
原创 【YOLO目标检测】获取COCO指标
本文介绍了YOLO模型验证与数据集转换的完整流程。首先说明验证时需要开启save_json选项以保存结果,并提供了验证代码示例。其次详细讲解了将YOLO格式数据集转换为COCO格式的方法,包括类别定义、坐标转换和JSON文件生成。最后介绍了使用TIDE工具获取评估指标的步骤,包括安装依赖和运行评估脚本。整个过程涉及图像路径处理、标签文件转换和COCO格式数据生成,为模型验证和评估提供了完整的技术方案。
2025-09-13 17:17:48
217
原创 【CVPR2025-DEIM】基础课程二十:顶会中的Partial创新思想,随意包装你想包装的!
摘要: 本文探讨了Partial思想在CNN和Transformer中的创新应用,通过部分通道处理降低计算复杂度并保持性能。重点分析了GhostNet(利用冗余特征图)、FasterNet(优化内存访问)、SHViT(减少注意力头冗余)和MobileMamba(多感受野交互)等顶会工作,总结出Partial思想的通用设计范式:将输入通道分组,分别进行全局/局部处理或恒等映射,最后拼接输出。该思想可灵活适配多种模块(如Transformer、Mamba、动态卷积等),为轻量化设计提供新思路,同时通过特征图可视
2025-09-11 16:48:55
1032
原创 【CVPR 2022】面向2020年代的卷积神经网络
论文《面向2020年代的卷积神经网络》提出ConvNeXt架构,通过现代化改造ResNet设计,使纯CNN在视觉任务上媲美Transformer。作者质疑Transformer的优势仅来自自注意力机制,通过融合大卷积核、GELU激活等Transformer设计理念,同时保持CNN的高效性。实验表明,ConvNeXt在ImageNet分类、COCO检测等任务中性能与Swin Transformer相当,且具有更好的推理速度和内存效率。核心代码展示了采用分层结构和LayerNorm的模块化设计,验证了传统CNN
2025-09-10 18:15:59
900
原创 【ICLR 2023】可逆列网络(RevCol)
本文介绍了可逆列网络(RevCol),这是一种新型神经网络架构,由旷视科技和北京智源研究院团队提出。RevCol采用多列可逆结构设计,通过多级可逆连接实现特征解耦与无损信息传播。相比传统网络,RevCol能保留更多低层细节信息,在图像分类、物体检测和语义分割任务上达到SOTA性能。其核心创新包括可逆多列结构、特征解耦机制和内存高效设计,训练时仅需存储一列激活值。实验表明,RevCol-H在ImageNet-1K上达到90.0%准确率,且具有良好的扩展性。该架构还可应用于Transformer等其他网络,提升
2025-09-10 17:57:20
885
原创 【CVPR2023】奔跑而非行走:追求更高FLOPS以实现更快神经网络
本文提出了一种新型部分卷积(PConv)和FasterNet架构,旨在解决现有轻量级神经网络FLOPs低但FLOPS不高的问题。PConv仅对部分通道进行卷积,减少计算和内存访问,结合PWConv形成T型感受野。基于此构建的FasterNet在ImageNet分类及下游检测/分割任务中均实现了速度与精度的最优平衡,在多种硬件平台上表现优异。实验表明,PConv在相同FLOPs下FLOPS显著高于DWConv,FasterNet在保持精度的同时延迟更低、吞吐量更高。该方法具有简洁通用、硬件友好的特点。
2025-09-10 14:31:03
1034
原创 【ICCV 2025】反卷积及其在图像恢复中的应用
提出的 Converse2D 是 数学上严谨的卷积逆算子,可直接替代卷积和转置卷积。在多个任务中验证了其 通用性与有效性,不仅能提升去噪性能,还能避免棋盘伪影、改善去模糊效果。Converse Block 的设计使得空间建模与通道交互解耦,提升了网络的表达能力。该研究为深度学习提供了一种新的基础算子,未来有望扩展至 大规模视觉模型 与 生成任务,推动深度网络算子设计的新方向。
2025-09-08 21:10:39
730
原创 【CVPR2020】GhostNet:从廉价操作中获得更多特征
华为提出的GhostNet通过廉价操作生成冗余特征图,显著降低计算成本。核心创新是Ghost模块,先用少量卷积生成基础特征,再通过廉价线性变换扩展特征图,替代传统冗余计算。基于该模块构建的GhostNet在ImageNet分类任务中以相近计算量超越MobileNetV3准确率0.5%,在目标检测任务中也展现高效优势。代码实现展示了Ghost模块的核心结构:主卷积生成初始特征后,分组卷积进行低成本特征扩展。该研究为移动端轻量化网络提供了新思路。
2025-09-08 20:40:38
759
原创 【计算机视觉】图像中的高频信息,和低频信息指的是什么?
低频信息:代表图像的平滑区域和大致结构,通常包括背景和整体轮廓。高频信息:代表图像的细节部分,包括边缘、纹理、噪声等。在图像处理中,低频信息用于保持图像的结构和背景,而高频信息则用于保持图像的细节、边缘和微小物体的特征。通过傅里叶变换,我们可以对这些频率成分进行分离、增强或去除,达到图像增强、去噪、压缩等效果。
2025-09-08 15:51:13
1187
原创 【科研写作篇】Design、Propose、introduce的区别
摘要:本文辨析了学术写作中三个关键术语的用法差异:"propose"强调首次提出新方法或理论,突出新颖性;"design"侧重具体解决方案的设计与实现细节;"introduce"则关注将技术引入新场景或领域的应用拓展。三者分别体现创新性、结构性和适应性三个不同维度,研究者应根据需要强调的侧重点选择恰当表述。150字
2025-09-08 11:25:08
744
原创 【Medical Image Analysis 1区TOP】用于MRI重建的全局感受野傅里叶卷积块
本文通过引入傅里叶卷积块(FCB),为MRI欠采样重建提供了一种兼具全局感受野与计算高效性的卷积设计。实验证明:FCB能有效去除全局分布的混叠伪影。FCB嵌入CNN后普遍提升性能,优于ViT、大核CNN及频域对手方法。该模块具备Plug-and-Play特性,适用于多种CNN架构。在推理效率上,FCB明显优于ViT,运行时间与11×11卷积CNN相当但性能更佳。局限性在于:参数量仍高于普通卷积,FFT/IFFT重复计算可能影响效率。未来研究可探索纯频域CNN或优化频域激活函数,以进一步降低开销。
2025-09-02 17:36:56
917
原创 【深度学习】一文带你搞懂Transformer中的QKV到底是什么,怎么更加通俗易懂的去理解?
发生了什么?最开始,“cat” 的词向量只代表“猫”这个孤立的概念。经过 QKV 的注意力计算后,“cat”新的向量表示变成了一个加权和。它吸收了句子中其他单词的信息,尤其是它最关注的 “drank” 和 “tired”。现在,新的 “cat” 向量不仅仅是“猫”了,它是一个融合了上下文的、正在喝东西的、疲惫的猫”**。这个新的向量更好地理解了它在句子中的角色和状态。总结一下 QKV 的角色:Q (Query): 我是谁?我在找什么?(主动的探针)K (Key): 你是谁?你能提供什么?
2025-07-28 18:02:01
1208
原创 【深度学习】为什么tensor的数值都是在0-1的范围内,而展示的时候图片的像素又是正常的显示
摘要: torchvision.transforms.ToTensor()会将图片像素值从0-255归一化为0-1的浮点数,以提升神经网络训练的稳定性。虽然数值范围改变,但matplotlib的imshow()会智能识别输入数据范围(0-1浮点或0-255整数),自动进行线性映射显示,因此视觉效果保持一致。代码示例演示了两种数值范围的图片在matplotlib中显示效果相同,验证了这一特性。这种归一化处理不影响可视化,同时优化了模型训练过程。
2025-07-06 11:19:51
209
原创 一文带你深入了解YOLO11中的核心常见模块,学完即可上手魔改YOLO11,实现无痛涨点,快速水出论文!
YOLO11模型解析摘要 YOLO11.yaml文件定义了YOLO11目标检测模型架构,包含5种规模配置(n/s/m/l/x),参数从262万到5697万不等。模型由骨干网络(backbone)和检测头(head)组成:骨干网络采用Conv、C3k2和SPPF模块进行下采样和特征提取,检测头通过上采样、特征融合和C3k2模块实现多尺度检测。Conv类实现标准卷积操作,包含自动填充(autopad)功能,确保输出尺寸不变,支持膨胀卷积,并通过SiLU激活函数进行非线性变换。该设计兼顾计算效率和检测精度,适用于
2025-06-12 20:56:46
503
原创 【深度学习】为什么2个3×3的卷积可以相当于一个5×5的卷积核?为什么3个3×3的卷积相当于一个7×7的卷积核,到底区别在哪里?我们该如何使用?
摘要: 本文对比了串联小卷积核与大卷积核在CNN中的性能差异。以640×640输入为例,分析2个3×3与1个5×5、3个3×3与1个7×7的卷积组合,发现小卷积核串联可保持相同感受野的同时显著减少参数量(28%-45%),并通过多层非线性激活增强特征表达能力。小卷积核堆叠在网络深度、硬件加速和正则化效果上更具优势,已成为现代CNN设计准则,尤其适合需要多层次特征提取的任务,而大卷积核仅建议在网络浅层使用。这种设计本质是通过空间域分解实现高效分层次特征提取。
2025-06-05 20:14:12
905
原创 【深度学习】一文带你了解清楚,到底什么是普通卷积,逐点卷积,以及深度可分离卷积,魔改模块,无痛涨点必备!
摘要:本文介绍了三种卷积神经网络中的卷积操作:普通卷积(标准卷积)、逐点卷积(1x1卷积)和深度可分离卷积。普通卷积同时处理所有输入通道;逐点卷积仅调整通道数而不改变空间维度;深度可分离卷积则将普通卷积分解为深度卷积和逐点卷积两个步骤,显著减少了计算量和参数数量。文章通过PyTorch代码示例和形象的比喻说明了每种卷积的特点,特别指出深度可分离卷积在轻量级网络中的高效性优势。这种分离策略在保持性能的同时大大降低了计算资源需求。
2025-06-05 09:31:33
587
原创 【深度学习】数据集划分、数据集格式转换一文带你搞定!复制就能用!!!
本文介绍了目标检测任务中常用的三种数据格式转换方法:1) 数据集划分,使用Python脚本将VOC格式数据随机划分为训练集、验证集和测试集;2) XML到TXT格式转换,将VOC的XML标注转换为YOLO格式的TXT文件;3) YOLO到COCO格式转换,将YOLO格式数据转换为COCO格式的JSON文件。每种方法都提供了完整的Python实现代码,包括数据读取、格式转换和保存过程。这些转换方法可帮助研究人员在不同目标检测框架间灵活切换数据格式。
2025-06-02 10:44:47
197
原创 【目标检测】检测网络中neck的核心作用
本文探讨了神经网络中neck层的关键作用:1) 实现多层级特征融合,耦合不同感受野的特征图,增强特征表达能力;2) 决定检测head数量,将多尺度目标学习任务分配到不同层级特征图上;3) 对主干网络的多层级特征进行融合加工,输出统一宽度的优化特征供检测头使用。neck层通过特征融合与尺度分配,显著提升了目标检测网络的性能。
2025-06-01 18:58:16
311
原创 【目标检测】backbone究竟有何关键作用?
摘要: 本文探讨了目标检测中backbone网络的核心作用,提出其关键功能在于提供多种感受野大小与中心步长的组合,以适应不同尺度和类别目标的检测需求。通过多层级特征提取与灵活的参数配置,backbone能够有效增强模型对多样化目标的识别能力,为后续检测任务奠定基础。实验结果表明,优化感受野与步长组合显著提升了检测精度与泛化性能。
2025-06-01 18:49:24
312
原创 【深度学习】数据集的划分比例到底是选择811还是712?
在机器学习中,数据集的划分对模型性能评估至关重要。常见的划分方式包括811和712,分别代表训练集、验证集和测试集的比例。811划分中,训练集占80%,验证集和测试集各占10%,适合数据量有限的情况,旨在最大化训练数据以提升模型性能。712划分中,训练集占70%,验证集占10%,测试集占20%,适合数据量较大的情况,旨在通过更大的测试集提高最终评估的可靠性。选择哪种划分方式取决于数据集规模和评估需求:数据量较小时,811划分更为合适;数据量较大时,712划分能提供更可靠的性能评估。
2025-05-12 10:20:36
740
原创 【深度学习】一文带你了解深度学习中Batch Normalization的作用!
Batch Normalization(BN)是深度学习中一种关键技术,通过规范化输入数据的分布,显著加速网络训练并提升模型稳定性。其主要作用包括:1) 加速训练收敛,缓解内部协变量偏移,允许使用更大学习率;2) 提升模型稳定性,减少对初始化的依赖,抑制过拟合;3) 改善梯度传播,缓解梯度消失或爆炸问题;4) 支持构建更深的网络结构,如ResNet和DenseNet。BN的计算步骤包括计算均值和方差、标准化处理以及缩放与偏移。在实际应用中,需注意训练与推理的差异、与Dropout的结合以及适用场景。BN已成
2025-05-11 21:56:25
1179
原创 【CV必读经典】MetaFormer Is Actually What You Need for Vision | CVPR2022
MetaFormer 才是你进行视觉任务真正需要的架构
2025-03-04 13:23:39
1085
1
原创 【安徽理工大学】一文带你高分拿下计算机考研复试(85+的秘密)| 第三弹
复试准备要点包括:简洁明了的个人简历(5~8份),省级以上竞赛证书(彩印),以及毕业设计的详细内容或构思。对于缺乏项目或竞赛经验的学生,建议通过完成一个中等复杂度的编程项目来提升实践能力,并熟悉项目流程和技术栈。有项目或竞赛经验的学生应深入理解参与项目的细节,以便在复试中展示。整体而言,复试准备应注重实践能力的展示和项目经验的深入理解,以给导师留下良好印象。
2025-02-27 19:18:20
300
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人