落花不写码-CSDN博客

原创【U-Net 图像分割专栏】全网最通俗的 UNet 从入门到精通实战指南，实战与改进专栏目录和介绍

U-Net 它不仅在医学图像分割中大放异彩，更是如今大火的 AIGC（如 Stable Diffusion 内部的噪声预测网络）的核心架构之一。2026年甚至未来几年，带你结合 AI 工具开发自己的 U-Net 分割系统，熟悉后，你也可以用于其他领域的任务。本阶段我们将拆解原版论文，了解 U-Net 为什么是这个形状，以及它做出了哪些划时代的贡献。，彻底吃透 U-Net 及其各种“魔改”变体，都是你 CV 进阶之路上不可或缺的一环。你的支持是我持续更新的最大动力！如果本专栏对你有帮助，请不要吝啬你的。

2026-04-24 23:29:32 458

原创 2026年告别手动标注，LabelPaw智能标注系统，吊打 labelme、labelimg 工具，支持SAM3/SAM2模型、YOLO26/11/v8模型智能标注，全部源码开源，全网首发

由于项目需要标注数据集，之前用过 labelme、labelimg 等工具，于是决定结合 SAM2、SAM3、YOLO 姿态估计等优秀的视觉模型，开发一个更智能、更高效的标注工具。经过多次迭代，系统迎来了全新的2.0.0 版本！系统基于 PySide6 构建，智能点选与提示词分割：开启 SAM 智能标注后，支持在多边形、矩形、OBB 等模式下进行目标快速提取。也可以使用关键点模板进行标注或者使用YOLO26/YOLO11/YOLOv8模型进行推理进行标注。

2026-04-11 00:39:20 3068 2

原创基于YOLO26/11/v8算法的Web目标检测系统，人脸表情识别系统，Django+Vue3 的前后端分离，实现摄像头实时识别，YOLO26/YOLO11/v8 + LLM大模型智能分析，科研必备

在人工智能迈向通用化（AGI）的今天，“视觉感知 + 语言理解”的多模态联合是未来的趋势。单纯的检测画框已经无法满足复杂的业务需求，如何让系统“看懂”画面并进行“思考”，是当前视觉项目的重点。我们知道目标检测是计算机视觉中的重要任务，广泛应用于安防监控、自动驾驶、智能家居等领域。因此本项目将 YOLO 目标检测模型（兼容 YOLO26/v11/v8 系列）与 DeepSeek 等顶流大语言模型（LLM）进行联合，使用 Django (后端) + Vue3 (前端) 技术栈

2026-03-03 17:20:30 2272

原创基于ResNet + LLM大语言模型的分类识别系统设计与实现，Web前后端分离，Django+vue3+AI助手模块+ResNet50算法+LLM 联动+Element Plus等技术，全网独发

分类识别任务是计算机视觉中的重要任务，广泛应用于智慧校园分类、智慧农业、智慧生活场景分类等领域。常见的分类模型有 VGGNet、ResNet 、MobileNet 、ConvNeXt、DenseNet、ViT、Swin Transformer、YOLOv8/11/26。本项目结合 ResNet分类识别算法 + LLM大语言模型联动，使用 Django + Vue3，构建了一个通用的 Web 前后端系统，用户端 + 管理端，便于用户操作检，不仅可以用于大论文的工作量展示，还可以作为毕业设计。

2026-01-29 17:28:29 582

原创 AutoDL使用教程，以PaddleOCR在服务器训练为例子，使用AI远程服务器训练深度学习、多模态、AI大模型训练等，包括Xshell和Xftp安装、服务器环境配置等，linux常用命令，超w字教程

AutoDL使用教程，以PaddleOCR在服务器训练为例子，使用AI远程服务器训练深度学习、多模态、AI大模型训练等，包括Xshell和Xftp安装、服务器环境配置等，linux常用命令，超w字教程

2025-12-21 00:39:06 1844

原创《人工智能实战：深度学习模型改进与系统部署》，改进专栏目录和介绍

专深度学习相关项目都写在本专栏，《一次订阅解锁全部，都有源码，永久观看》，包括车牌识别、股票预测、人脸识别、风格迁移、图像修复、图像超分辨重建、图像分割等任务，Web/PyQt系统实现。引入Transformer、Swin Transformer、DenseNet、ViT、ConvNeXt等算法实战，提供卷积改进，魔改对比实验，模型剪枝，模型蒸馏，模型量化，全网独家整合改进专栏，为不同领域的同学发表论文提供了大力支持。

2025-06-25 12:57:12 2663 1

原创基于Django+Vue3的目标检测系统设计与实现，Web前后端分离，Vue3前台系统+Django后台管理系统开发，YOLOv11 Web目标检测，实现图片、视频和摄像头检测等功能，全网独发

基于Django+Vue3的智能目标检测系统设计与实现，Web前后端分离，YOLOv11 Web目标检测，Vue3前台系统+Django后台管理系统开发，实现图片检测、视频检测、摄像头检测、登录、注册和个人中心功能

2025-04-05 01:45:49 3442 1

原创基于Django+Vue3的智能目标检测系统设计与实现，Vue3前台系统+Django后台管理系统开发，Web前后端分离，YOLOv8 Web目标检测，实现图片、视频和摄像头检测等功能，全网独发

目标检测是计算机视觉中的重要任务，广泛应用于安防监控、自动驾驶、智能家居等领域。YOLO系列模型由于其高效的检测速度和较高的准确率，成为目标检测任务的首选算法之一。本项目结合 YOLOv8 与 Django + Vue3，构建一个Vue3前台系统+Django后台管理系统开发，便于用户进行目标检测的操作和展示，实现对图片、视频实时目标检测，不仅可以用于大论文的工作量展示，还可以作为毕业设计。支持更换自己模型、图片检测、实时视频检测、置信度调节和IoU参数调节。同时支持目标检测、实例分割、关键点检测等任务

2025-03-29 01:27:00 5197 5

原创 YOLOv8/YOLOv11目标检测系统与多目标跟踪检测系统，使用PySide6搭建目标检测系统，支持目标检测、分割、姿势估计、旋转框，用户端系统+后台管理系统可用于大论文凑工作量或毕设必备

YOLOv8/YOLOv11目标检测系统与多目标跟踪检测系统，目标检测、分割、姿势估计、obb（旋转框），用户端系统+后台管理系统开发实战，可用于大论文凑工作量或毕设必备，全网最详细教程，系统支持目标检测、分割、姿势估计、obb（旋转框）等模型进来检测，是一个通用的目标跟踪与目标检测系统，适配多种场景如：鱼苗检测与跟踪、行人多目标跟踪、车辆多目标跟踪、牛只行为识别与跟踪、口罩佩戴检测、安全帽佩戴检测、火灾检测等。

2024-11-08 14:30:03 11190 20

原创《手把手教你YOLOv10实战》，专栏目录和介绍

在计算机视觉领域，目标检测技术一直是研究和应用的热点，而YOLO系列算法凭借其高效性和精确性，成为了广泛应用的选择。YOLOv10作为YOLO系列的最新版本，继承并扩展了前辈的优点，同时也带来了许多创新和改进。本专栏将手把手教你掌握YOLOv10的实战技巧，包括算法改进、环境配置和训练自己数据集等，让你能够迅速上手并应用到实际项目中。

2024-09-14 09:44:00 3180 8

原创《手把手教你YOLOv9实战》，改进专栏目录

为了提供友好的操作效果，本专栏将会手把手搭建可视化界面，我将用PyQt5 搭建一个可视化界面，可视化界面能够实现基本的图像加载与检测功能，如支持视频、摄像头，还支持更换不同的 YOLOv9 模型，并适应不同领域（如口罩检测系统、人脸检测系统、工业缺陷检测系统等），界面灵活、功能强大。通过YOLOv9加以改进设计，形成新的算法框架，一起水科研和论文，专栏会一直持续更新中，本专栏适合目标检测、分割、分类。

2024-08-09 14:48:14 1921 2

原创《YOLO26/YOLO11/YOLOv8改进与系统实战》，改进与系统实战专栏目录和介绍

YOLOv8 是目前比较火和比较成熟的深度学习框架，是2023年1月发布的，由 Ultralytics 团队开发。Ultralytics自YOLOv5 开始一直积极维护和更新 YOLO 框架，因此 YOLOv8 也享有持续的维护与升级支持。因此我写下《手把手教你YOLOv8实战》专栏，专门为那些对计算机视觉、深度学习、以及目标检测技术感兴趣的读者设计。通过本专栏，你将深入理解 YOLOv8 的核心原理与实际应用，从0 开始学习并掌握如何使用 YOLOv8 完成各类目标检测任务，帮助你快速上手并掌握 YOLO

2024-08-09 10:47:42 17780 19

原创【UNet 改进 | 注意机制篇】UNet引入STA超级令牌注意力机制（CVPR 2023），稀疏关联采样打破高分计算瓶颈，二次创新

在医学图像分割任务中，病灶区域往往形态各异、边界模糊，且经常与周围组织的对比度较低，这要求模型具备极强的特征提取和细节辨别能力。传统的U-Net网络虽然通过跳跃连接融合了多尺度特征，但在处理复杂语义和精细边缘时仍有不足。尤其是在早期的浅层网络中，如果使用局部卷积或局部自注意力，往往难以捕获长距离的全局依赖；而如果直接使用全局自注意力，又会因为图像分辨率过高（Token数量巨大）导致难以承受的计算开销。

2026-05-07 15:50:41 195

原创【UNet 改进 | 注意机制篇】UNet引入iRMB反向残差注意力机制（ICCV 2023），兼顾CNN与Transformer优势，二次创新

在医学图像分割任务中，病灶区域往往形态各异、边界模糊，且经常与周围组织的对比度较低，这要求模型具备极强的特征提取和细节辨别能力。传统的U-Net网络虽然通过跳跃连接融合了多尺度特征，但在处理复杂语义和精细边缘时仍有不足。尤其是在轻量化模型设计中，纯 CNN 模型（如基于 Inverted Residual Block 的网络）受限于静态归纳偏置，缺乏捕获全局上下文的能力；而纯 Transformer 模型虽然具备动态建模长距离依赖的优势，但计算开销巨大。

2026-05-07 15:46:10 85

原创【UNet 改进 | 注意机制篇】UNet引入EMA注意力机制（ICASSP 2023），高效多尺度跨空间学习，二次创新

在医学图像分割任务中，病灶区域往往形态各异、边界模糊，且经常与周围组织的对比度较低，这要求模型具备极强的特征提取和细节辨别能力。传统的U-Net网络虽然通过跳跃连接融合了多尺度特征，但在处理复杂语义和精细边缘时仍有不足，尤其是在捕获跨通道和跨空间特征时，很多通道注意力机制（如SE）采用了降维操作，导致深层视觉表示信息丢失且增加了计算开销。为了解决这些痛点，本文引入了在计算机视觉领域表现出色的 EMA（Efficient Multi-Scale Attention，高效多尺度注意力）机制。

2026-05-05 23:26:42 385

原创【UNet 改进 | 注意机制篇】UNet引入ECA注意力机制（CVPR 2020），极轻量级跨通道交互，二次创新

在医学图像分割任务中，病灶区域往往形态各异、边界模糊，且经常与周围组织的对比度较低，这要求模型具备极强的特征提取和细节辨别能力。传统的U-Net网络虽然通过跳跃连接融合了多尺度特征，但在处理复杂语义和精细边缘时仍有不足，尤其是在捕获跨通道的特征依赖时，要么缺乏注意力机制导致关键特征不够突出，要么采用类似 SE（Squeeze-and-Excitation）机制却因为降维操作丢失了通道间的原始空间关联。

2026-05-05 23:23:56 663

原创【UNet 改进 | 注意机制篇】UNet引入DA注意力机制（CVPR 2022），动态偏移捕获关键特征，二次创新

在医学图像分割任务中，病灶区域往往形态各异、边界模糊，且经常与周围组织的对比度较低，这要求模型具备极强的特征提取和细节辨别能力。传统的U-Net网络虽然通过跳跃连接融合了多尺度特征，但在处理复杂语义和精细边缘时仍有不足，尤其是在捕获长距离依赖和全局上下文信息时常常受到局部感受野的限制。为了解决这些痛点，本文引入了在计算机视觉领域表现出色的 DAT（Deformable Attention Transformer）中的核心机制——可变形注意力机制（Deformable Attention, 简称 DA）。

2026-05-05 23:17:51 79

原创【UNet 改进 | 注意机制篇】UNet引入CBAM注意力机制（ECCV 2018 ），空间与通道的完美结合，二次创新

在医学图像分割任务中，病灶区域往往形态各异、边界模糊，且经常与周围组织的对比度较低，这要求模型具备极强的特征提取和细节辨别能力。传统的U-Net网络虽然通过跳跃连接融合了多尺度特征，但在处理复杂语义和精细边缘时仍有不足，尤其是在捕获特征时常常忽略关键的通道与空间位置信息。为了解决这些痛点，本文引入了在计算机视觉领域表现出色的 CBAM（Convolutional Block Attention Module，卷积块注意力模块）机制。

2026-05-05 22:56:58 70

原创【UNet 改进 | 注意机制篇】UNet引入GAM注意力机制（ArXiv 2021），保留信息增强跨维度交互，二次创新

在医学图像分割任务中，病灶区域往往形态各异、边界模糊，且经常与周围组织的对比度较低，这要求模型具备极强的特征提取和细节辨别能力。传统的U-Net网络虽然通过跳跃连接融合了多尺度特征，但在处理复杂语义和精细边缘时仍有不足，尤其是在捕获跨通道和跨空间特征时，很多通道注意力机制（如SE）采用了降维操作，导致深层视觉表示信息丢失且增加了计算开销。为了解决这些痛点，本文引入了在计算机视觉领域表现出色的 GAM（Global Attention Mechanism，全局注意力机制）。

2026-05-05 22:36:50 93

原创【UNet 改进 | 注意机制篇】UNet引入CA注意力机制（2021 CVPR），二次创新

在医学图像分割任务中，病灶区域往往形态各异、边界模糊，且经常与周围组织的对比度较低，这要求模型具备极强的特征提取和细节辨别能力。传统的U-Net网络虽然通过跳跃连接融合了多尺度特征，但在处理复杂语义和精细边缘时仍有不足，尤其是在捕获特征时常常忽略位置信息。为了解决这些痛点，本文引入了在计算机视觉领域表现出色的 CA（Coordinate Attention，协调注意力）机制。CA 巧妙地将位置信息嵌入到了通道注意力中，通过水平和垂直两个方向的一维池化，同时捕获长距离依赖和精确的位置坐标。

2026-05-05 22:26:15 81

原创【UNet 改进 | 注意机制篇】UNet引入LSKA注意力机制（2024 WACV），二次创新

在医学图像分割任务中，病灶区域往往形态各异、边界模糊，且经常与周围组织的对比度较低，这要求模型具备极强的特征提取和细节辨别能力。传统的U-Net网络虽然通过跳跃连接融合了多尺度特征，但在处理复杂语义和精细边缘时仍有不足，尤其是在捕获长距离依赖关系时常常力不从心。为了解决这些痛点，本文引入了在计算机视觉领域表现出色的 LSKA（Large Separable Kernel Attention，大核可分离注意力）机制。

2026-05-04 18:59:33 185

原创【UNet 改进 | 注意机制篇】UNet添加MLCA注意力机制，二次创新

在医学图像分割任务中，病灶区域往往形态各异、边界模糊，且经常与周围组织的对比度较低，这要求模型具备极强的特征提取和细节辨别能力。传统的U-Net网络虽然通过跳跃连接融合了多尺度特征，但在处理复杂语义和精细边缘时仍有不足，尤其对于微小病灶的检测。为了解决这些痛点，本文引入了在目标检测领域大放异彩的 MLCA（Mixed Local Channel Attention，混合局部通道注意力）机制。MLCA 巧妙地融合了局部空间信息和全局通道依赖，通过自适应分配通道和空间权重，增强了对关键特征的表达。

2026-05-04 16:58:01 209

原创【UNet 改进 | 注意机制篇】引入 SCSA 空间和通道协同注意力机制，即插即用，二次创新 (arXiv 2024)

在医学图像分割任务中，病灶区域往往形态各异、边界模糊，且经常与周围组织的对比度较低，这就要求分割模型具备极强的特征提取和辨别能力。传统的U-Net网络虽然通过跳跃连接融合了不同层次的特征，但在处理复杂语义和精细边缘时仍显不足。为了解决这一痛点，本文引入了2024年最新提出的SCSA（Spatial and Channel Synergistic Attention）注意力机制。SCSA模块通过共享的多语义空间注意力（SMSA）提取多尺度的空间先验信息，并以此指导渐进式通道自注意力（PCSA）进行通道重校准。

2026-05-02 13:39:35 85

原创【unet 改进 | 注意机制篇】：UNet添加SE注意机制，二次创新

卷积神经网络（CNN）的核心构建模块是卷积算子，它使网络能够通过在每一层的局部感受野内融合空间和通道信息来构建有信息的特征。大量先前的研究探讨了这种关系的空间成分，试图通过提高整个特征层次中空间编码的质量来增强CNN的表征能力。作者提出了一种新颖的架构单元，称之为“Squeeze-and-Excitation”（SE）块，该块通过显式建模通道之间的相互依赖关系来自适应地重新校准通道特征响应。SE 模块通过显式建模通道间的相互依赖关系来重塑特征。通过全局平均池化（GAP）将每个通道的H×W。

2026-04-30 14:31:50 53

原创【U-Net 数据集制作】如何制作自己的图像分割数据集？(标注与格式转换)，图像分割数据集制作与转换神器

在前面的课程中，我们像搭积木一样手写了 U-Net 的网络架构。很多同学迫不及待地想把自己的图片喂进网络开始“炼丹”。但是，深度学习界有一句名言：“数据决定了模型的上限，而网络结构只是在逼近这个上限。用标注工具标出来的是 JSON 文件，怎么变成 U-Net 需要的黑白掩码（Mask）图？为什么我的 Mask 肉眼看是黑白的，一放进 PyTorch 训练就报？如何快速按 8:2 的比例把几千张图片和标签划分成训练集和验证集？

2026-04-27 00:09:23 69

原创 YOLO四种常见的关键点数据集说明

通常基于 MediaPipe 或 COCO-WholeBody 的标准，精准描绘了手掌和五根手指的全部关节。目前计算机视觉中最通用的人体姿态估计标准，包含 17 个关键点，主要涵盖五官和四肢关节。关键点，也可能是 18 个关键点。通常第18个点增加的是“尾尖 Tail Tip”）。最经典的人脸对齐（Face Alignment）模型，点位密集地分布在五官边缘。在学术界，标准的 AP-10K（泛哺乳动物姿态估计数据集）通常定义了。

2026-04-26 11:48:22 433

原创【U-Net 高阶实战】手把手教你使用 ResNet50 作为 UNet 主干网络（附 PyTorch 代码解析）

大家在以后的学术论文或打比赛中，只要遇到分割精度上不去、特征提取不够强的情况，就可以直接把这套代码拿去用。主包在此模型上使用 voc2012 数据集，训练了一个预训练模型权重，大家训练自己的数据集时候可以在此模型上进行迁移学习，可以加快模型训练、提高模型效果和防止模型训练过程中震荡等问题，训练教程看下面这篇文章:手把手带你完成基于Unet的医学图像分割系统设计与实现，Unet网络架构讲解，Unet复现，使用vibe coding工具，开发一个完整系统，包含完整源码用同样的思路，你还可以把骨干网络换成。

2026-04-25 18:20:15 396

原创【U-Net 模型搭建】手把手带你用 PyTorch 从零搭建 UNet 架构（附逐行代码注释）

恭喜你！到这里，你已经成功手撕了当前 CV 届地位最高的分割架构之一：U-Net。梳理一下，算清楚每一次下采样、上采样时的通道数变化。牢记在forward中，通过torch.cat([左侧特征, 右侧特征], dim=1)实现跳跃连接。📥订阅专栏永久观看，并带训练脚本、画图、完整的可视化系统等源码。！

2026-04-25 17:17:20 75

原创 Unet 画图篇 | 一文带你画深度学习模型Grad-CAM热力图、模型对比图，科研/本科论文必备（含Grad-CAM热力图、对比图）

高质量的图表是征服审稿人和导师的核心。本文带你画深度学习项目中必不可少的四类图表绘制方法，包含Grad-CAM热力图、对比图。以 Unet 模型为例子。下文也给出一键画图代码。

2026-04-25 16:56:22 239

原创将应用添加到鼠标的右键列表，如何将软件添加到右键菜单中呢？

安装软件时候，可能忘记勾选添加到右键菜单中，那么可以通过手动方式添加在 Windows 系统中，可以通过修改注册表（Registry）来实现。写一个.reg注册表脚本文件，可以直接将下面的代码保存为.reg文件并双击运行，即可将目标软件注入到右键菜单中。

2026-04-25 16:24:36 333

原创 U-Net: Convolutional Networks for Biomedical Image Segmentation（译文），用于生物医学图像分割的卷积网络

人们普遍认为，深度网络的成功训练需要成千上万个带标注的训练样本。在本文中，我们提出了一种网络和训练策略，它依赖于大量使用数据增强，以便更高效地利用可用的带标注样本。该架构由一个用于捕获上下文的收缩路径（contracting path）和一个支持精确本地化（localization）的对称扩展路径（expanding path）组成。

2026-04-24 10:07:29 129

原创模型压缩 | [ECCV 2024] 视觉模型的同构剪枝(Isomorphic Pruning) 论文精译，Isomorphic Pruning for Vision Models

译文翻译：[ECCV 2024] Isomorphic Pruning for Vision Models

2026-04-24 09:40:42 446

原创 Antigravity图文安装教程，记录各种报错并解决，解决登录和Google Antigravity 消息无响应、一直 Loading 的解决方法，并汉化中文版本

Antigravity 是一款将顶配大模型深度嵌入底层的全栈开发神器。它的外壳和操作习惯完全复用了你最熟悉的 VS Code，但内核已经被彻底 AI 化了。当你开发前后端分离的架构时，不管是在写 Vue3 的前端交互控件，还是用 Django 处理后端复杂的业务逻辑，它能通读你整个项目，直接帮你写出完美对接的跨文件代码。下面记录 Antigravity 安装和使用过程遇到各种 bug，以及解决方法。

2026-04-19 18:08:39 1722 1

原创 Gemini Cli图文使用教程，记录版

Gemini Cli 官网:已安装 Node.js 18 或更高版本（推荐使用 nvm 进行版本管理）打开终端全局安装成功的样子如下启动 Gemini CLIgemini我选择第三个，Don’t trust 并回车Gemini-cli 单独给了docs说明：https://github.com/google-gemini/gemini-cli/blob/main/docs/cli/authentication.md#workspace-gca。

2026-04-19 12:15:56 723

原创 Trae 国际版安装与上手图文教程

简单来说，Trae是字节跳动近期推出的一款AI 原生集成开发环境 (IDE)。你可以把它看作是国内打磨极佳的 Cursor 或 Windsurf 替代品。它从底层架构开始就围绕 AI 能力构建，不仅能自动补全代码，还能直接听懂你的大白话，帮你从零开始写项目、修 Bug、甚至一键部署后端服务。国际版开发复杂项目比国内版好，大家可以试试看你在安装和使用 Trae 的过程中感觉如何？有没有遇到什么好玩的 AI 编程技巧？欢迎在评论区留言讨论！

2026-04-18 09:53:48 2583

原创【PASCAL VOC 数据集介绍篇】目标检测与分割常用的数据集：PASCAL VOC 数据集全版本详解与避坑指南

PASCAL VOC 虽已是十几年前的产物，但它的标注规范深深影响了后来的视觉生态。无论是做模型剪枝、量化测试，还是新架构的快速验证，VOC 依然是最高效的试金石。弄懂它的目录结构、理解单通道调色板机制、掌握 XML 到 TXT/JSON 的转换，是每一个踏入 CV 领域的开发者必修的内功。希望这篇文章能帮你少走弯路！

2026-04-14 10:54:56 1666

原创 PyCharm提交项目代码到GitHub与Gitee的方法，日常记录，自己用版本

配置完成后，当你按下 Ctrl+Shift+K 唤出推送 (Push) 窗口时，直接点击窗口左上角的远程仓库名称，就可以在下拉菜单中灵活切换推送到 Gitee 还是 GitHub 了。使用上面的命令时而灵敏时而不灵，网上也看过很多教程，这个问题本质上是因为本机系统代理端口和 Git 端口不一致导致的，解决办法是将 git 配置修改为本机端口号。设置了全局代理，GitHub 是通了，但你的 Gitee 可能又推送不上去了。，在终端中输入以下命令（注意把。重新推送后，就可以推送成功了。(注意看命令的区别：在。

2026-04-13 09:46:43 488

空空如也

空空如也