无敌悦悦王-CSDN博客

原创【SCI论文写作】不同模型性能对比图绘制

如图所示，是论文中常见的模型性能对比图，往往是对比同一个数据集中，不同model的准确率情况，来显示自己模型的优越性。使用python进行绘制，代码如下，可直接复制。

2025-05-21 16:05:57 260

近年来，基于注意力机制的VOS方法取得了显著进展，其中AOT通过引入基于Transformer的层次传播机制，实现了从过去帧到当前帧的信息传播，并将当前帧的特征从目标无关（object-agnostic）转换为目标特定（object-specific）。视频目标分割（VOS）是视频理解中的一个基础任务，其目标是根据视频序列中第一帧提供的目标掩码，跟踪并分割整个视频中的目标。视频目标分割（VOS）是视频理解中的一个基础任务，特别是在半监督设置中，给定第一帧的实例标注，算法需要分割出其他帧中的实例。

2025-05-20 11:23:16 1378

原创【深度学习基础/面试高频问题】常见的归一化

批量归一化（Batch Normalization, BN）是一种通过归一化层输入来加速深度神经网络训练的技术。它通过减少内部协变量偏移，使得网络能够使用更高的学习率，并且减少对参数初始化的依赖。BN的核心思想是对每个小批量数据进行归一化，使其均值为0，方差为1，并通过可学习参数γ和β进行缩放和偏移，以恢复网络的表示能力。实验表明，BN显著加速了训练过程，并提高了模型性能，特别是在大规模图像分类任务中。然而，BN的效果依赖于小批量的大小，并且在循环神经网络（RNN）中的应用并不直观。为了解决这些问题，层归一

2025-05-19 13:36:26 674

原创【深度学习基础/面试高频问题】归一化-为何BN层能帮助模型优化

Batch Normalization（BN）在深度学习中的有效性通常被认为是通过减少内部协变量偏移（ICS）来实现的，即通过稳定层输入的分布来优化训练过程。然而，研究表明，BN的成功实际上与ICS的减少关系不大，而是通过使损失函数的表面更加平滑，从而使得梯度下降算法更加稳定和有效。这种平滑效果使得BN能够使用更大的学习率，加速网络收敛，并对超参数的选择更加鲁棒。此外，研究还发现，BN的这种平滑效果并非其独有，其他归一化技术也能产生类似甚至更强的效果。这些发现不仅挑战了传统的BN有效性解释，也为理解神经网络

2025-05-16 13:29:19 594

原创【SAM2代码解析】数据集处理3--混合数据加载器（DataLoader）

self._setup_dataloaders() 设置数据加载器。配置信息赋值给实例变量。初始化其他配置信息…

2025-04-30 15:59:19 308

原创【SAM2代码解析】数据集处理2

这里的逻辑是，我们使用segment_load方法得到的mask是true.false填充的，此时直接计算sum，若和>0，则说明存在obj。使用segment_loader的load方法，得到对象mask字典，字典的key是调色盘掩码png图像中，不同对象自身对应的像素值，字典的value是将不同对象分离后得到的单对象mask掩码，掩码的值是True和False。随机采样对象ID：从可见对象ID列表中随机采样max_num_objects个对象ID，如果可见对象ID少于最大值，则全部采样。

2025-04-29 11:20:10 637

原创【SAM2代码解析】数据集处理1

原始视频/标注…↓…[vos_segment_loader.py] → 加载掩膜…↓…[vos_raw_dataset.py] → 生成VOSVideo（元数据+帧列表）…↓…[vos_dataset.py] → 调用VOSSampler选择帧/对象 → 构造VideoDatapoint…↓…[transforms.py] → 应用翻转/缩放/马赛克等增强 → 标准化Tensor…↓…

2025-04-28 11:27:29 886

原创【SAM2代码解析】training部分代码详解-训练流程

【代码】【SAM2代码解析】training部分代码详解-训练流程。

2025-04-25 16:45:27 1004

原创【SAM2系列】windows单GPU复现时的bug解决记录

windows运行sam2，就感觉在开一艘破破烂烂的船，每走一步报一个错，bug源源不断的冒出来😭😭😭😭😭。

2025-04-25 09:44:49 874

原创【SAM2代码解析】training部分-1总体概述

training folder保存了训练SAM2的相关代码，该代码允许使用者们用他们自己的数据集（图像、视频或两者一起）去微调SAM2。

2025-04-22 16:52:33 655

原创【分割论文集】LSBNet: Lightweight Symmetrically Balanced Network for Real-Time Semantic Segmentation

为了解决现有语义分割模型在移动设备上计算开销过大与实时推理速度之间的平衡问题，提出了一种用于实时语义分割的轻量化对称平衡网络（Lightweight Symmetrically Balanced Network，LSBNet）。

2025-04-22 10:50:14 1103

原创【SAM系列】SAM结构解析

以例图中的分割剪刀为例，剪刀像素占全部像素的比例大致为20%，，这里得到的mask是类别极度不均衡的场景。2、使用I0U的方式，排序mask。在反向传播时，参与计算的只有loss最小的mask相关的参数,只训练结果最好的，太差的直接忽略。因为使用transformer的类型，可以实现通用性，进行特征融合和多模态。3、loss和训练细节:主要使用的是focalloss。1、一个prompt，模型会输出3个mask，基本能满足大多数情况，主要解决物体之间相互覆盖人穿衣服)y越大越看重难分的类别。

2025-04-21 15:50:48 867

原创 SAM2: Segment Anything in Imagesand Videos

我们推出了Segment Anything Model 2（SAM 2），这是一个用于解决图像和视频中可提示视觉分割的基础模型。我们构建了一个数据引擎，通过用户交互来提升模型和数据质量，从而收集到迄今为止最大的视频分割数据集。我们的模型是一个简单的带有流式记忆的Transformer架构，用于实时视频处理。在我们的数据上训练的SAM 2在各种任务中表现出色。在视频分割方面，我们观察到更高的精度，且与以往方法相比，交互次数减少了3倍。

2025-04-15 11:30:20 965

原创【视频目标分割论文集】Efficient Track Anything0000

视频对象分割和追踪任意目标领域出现了强大的工具——分割任意模型 2（SAM 2）。SAM 2 实现令人印象深刻的视频对象分割性能的关键组成部分包括用于帧特征提取的大型多阶段图像编码器，以及存储过去帧记忆上下文以辅助当前帧分割的记忆机制。然而，多阶段图像编码器和记忆模块的高计算复杂度限制了其在实际任务中的应用，例如在移动设备上进行视频对象分割。为解决这一限制，我们提出了高效追踪任意目标模型（EfficientTAMs），这是一种轻量级的追踪任意目标模型，能够在低延迟和小模型尺寸下产生高质量的结果。

2025-04-14 10:09:43 506

原创【结肠息肉AI论文集】ASPS: Augmented Segment Anything Model for Polyp Segmentation

息肉分割在结直肠癌诊断中起着关键作用。最近，Segment Anything Model（SAM）的出现为息肉分割带来了前所未有的潜力，其在大规模数据集上的强大预训练能力使其备受关注。然而，由于自然图像和内窥镜图像之间存在领域差异，SAM在息肉分割中面临两个限制。首先，其基于Transformer的结构优先考虑全局和低频信息，可能会忽略局部细节，从而引入偏差。其次，在应用于内窥镜图像时，其较差的分布外（OOD）性能导致预测结果不佳和置信度输出偏差。

2025-04-11 13:31:03 618

原创【结肠息肉分割AI论文集】CTNet: Contrastive Transformer Network for Polyp Segmentation

从结肠镜图像中分割息肉在临床实践中非常重要，因为它为结直肠癌提供了有价值的信息。然而，息肉分割仍然是一个具有挑战性的任务，因为息肉具有伪装特性且大小差异很大。尽管最近提出了许多息肉分割方法并取得了显著的成果，但由于缺乏具有区分性特征和高级语义细节的特征，大多数方法无法产生稳定的结果。因此，我们提出了一个名为对比变换器网络（CTNet）的新息肉分割框架，它包含三个关键组件：对比变换器主干、自多尺度交互模块（SMIM）和集合信息模块（CIM），具有出色的学习和泛化能力。CTNet通过。

2025-04-11 11:29:09 773

原创【结肠息肉AI论文集】MSRAformer: Multiscale spatial reverse attention network for polyp segmentation

结肠息肉是诊断结直肠癌（CRC）的重要参考依据。在日常诊断中，从结直肠内窥镜图像中分割出息肉区域，并利用获得的病理信息辅助疾病诊断和手术。在结肠镜图像中准确分割息肉一直是一项具有挑战性的任务。同类息肉在形状、大小、颜色和纹理方面存在很大差异，且难以区分息肉区域与黏膜边界。近年来，卷积神经网络（CNN）在医学图像分割任务中取得了一些成果。然而，CNN侧重于局部特征的提取，缺乏提取全局特征信息的能力。本文提出了一种在医学分割方面性能优异的多尺度空间逆向注意力网络，称为MSRAformer。

2025-04-09 15:45:01 1012

原创【结肠息肉AI论文集】Cross-level Feature Aggregation Network for Polyp Segmentation

从结肠镜图像中准确分割息肉在结直肠癌的诊断和治疗中起着关键作用。尽管在息肉分割领域已经取得了一定的成效，但仍存在诸多挑战。息肉通常具有多种大小和形状，并且息肉与其周围区域之间没有明显的边界(息肉分割的难点)。为应对这些挑战，我们提出了一种新颖的跨层特征聚合网络（CFA-Net）用于息肉分割。具体来说，我们首先提出了一个边界预测网络，用于生成具有边界感知能力的特征，这些特征通过逐层策略被整合到分割网络中。特别地，我们设计了一个基于双流结构的分割网络，以利用跨层特征中的层次化语义信息。

2025-04-09 14:56:32 818

原创【结肠息肉AI论文集】Shallow Attention Network for Polyp Segmentation

标注：这篇文章是2021的了，但是引言写的很好，可以用作写作参考。

2025-04-09 10:57:23 1010

原创【MMSegmentation指南合集】MMSegmentation的数据流

计算分割任务的损失，支持多损失函数组合与采样策略。seg_logits：解码头输出的未归一化logits（形状为(B, C, H, W)）， batch_data_samples：包含标注和元信息的SegDataSample列表。

2025-03-12 15:37:17 1198

原创【mmSegmentation指南合集】训练和测试：2）使用预训练模型推理

MMSegmentation为用户提供了数个接口，以便轻松使用预训练的模型进行推理，官方提供了最方便的方式MMSegInferencer来使用模型，仅需3行代码就可以获得图像的分割掩膜。，比如 maskformer 的一个模型名称是 maskformer_r50-d32_8xb2-160k_ade20k-512x512，np.ndarray：通道为 RGB 的绘制图像。使用以下语句可以轻易的得到所有模型的名称。nn.Module：构建好的分割器。在图像上可视化分割结果。使用分割器推理图像。

2025-03-10 15:08:05 835

原创【mmSegmentation指南合集】训练和测试：1）了解配置文件

例如在DeepLabv3的基础上进行了一些修改，我们可以先通过指定_base_ = …/deeplabv3/deeplabv3_r50-d8_4xb2-40k_cityscapes-512x1024.py 继承基本的 DeepLabV3 结构，然后在配置文件中修改必要的字段。建议以以下结构命名配置文件：算法名-组件名-训练设置-训练数据集名以PSPNet为例：我们在基本配置文件的基础上构建新的配置文件，我们先通过指定_base_的方式，继承原有的配置。然后新设置的配置信息在下面。

2025-03-06 16:36:13 1138

原创【结肠息肉AI论文集】结肠息肉分类数据集合集1

结直肠癌（CRC）是全球癌症死亡的主要原因之一。尽管早期息肉切除术可降低CRC发病率，但90%的息肉为小型且微小，切除这些息肉存在患者风险可能超过获益的情况。在内镜检查中正确检测并预测息肉类型可使内窥镜医师切除并丢弃组织而无需进行组织学送检，从而节省时间和成本。然而，人类对早期息肉的视觉观察存在差异。因此，本文旨在开发一种全自动算法以检测并分类增生性和腺瘤性结直肠息肉。腺瘤性息肉应当切除，而远端微小增生性息肉则被视为临床无关紧要并可保留原位。

2025-03-03 14:15:29 1206

原创 polyper-readme

我们提出了一种新的边界敏感型息肉分割框架（Polyper）。该方法受临床医生利用息肉内部特征处理模糊边界的启发，通过显式利用息肉区域增强模型的边界判别能力，同时最小化计算开销。

2025-02-28 15:06:58 592

原创【结肠息肉AI论文集】QueryNet: A Unified Framework for Accurate Polyp Segmentation and Detection

近期，基于深度学习的方法在息肉诊断中展现出有效性，这对结直肠癌的预防具有重要的临床意义。这些方法大致可分为两类任务：息肉分割（Polyp Segmentation, PS）和息肉检测（Polyp Detection, PD）。息肉分割的优势在于精准定位，但其性能受限于息肉区域的对比度；而息肉检测则通过全局视角弥补了这一不足，但容易受到误检或漏检问题的影响。尽管两类任务均取得了显著进展，但将两者整合的研究仍较为有限。为解决这一问题，我们提出了统一框架QueryNet，用于实现息肉分割与检测的高效协同。

2025-02-28 14:04:44 1337

原创【结肠息肉AI论文集】An Efficient Multi-Task Synergetic Network for Polyp Segmentation and Classification

结肠镜检查被认为是早期发现和切除息肉的最佳诊断工具，这可以有效预防随之而来的结直肠癌。在临床实践中，从结肠镜图像中对息肉进行分割和分类具有重要意义，因为它们为诊断和治疗提供了宝贵的信息。在本研究中，我们提出了一种高效的多任务协同网络（EMTS-Net），用于同时进行息肉分割和分类，并引入了一个息肉分类基准，以探索上述两个任务的潜在相关性。

2025-02-28 11:06:14 871

原创【结肠息肉AI论文集】Multi-classification of colorectal polyps with fused residual attention

利用内镜图像对结直肠息肉进行多分类对于提高临床诊断准确性和降低结直肠癌死亡率至关重要。由于病变边界模糊、类内尺度变化以及类间相似性高，准确分类结直肠息肉面临重大挑战。为应对这些挑战，我们提出了用于结直肠息肉分类的融合残差注意力网络（FRAN）。FRAN采用双分支结构来强调语义和细节信息。残差注意力学习机制增强了对病变区域的检测，而全局依赖自注意力捕捉了全局上下文。此外，边缘特征融合模块与语义对齐相结合，减轻了上采样过程中的语义丢失，并捕捉到了边缘细节特征。

2025-02-27 15:37:53 1157

原创【结肠息肉AI论文集】PraNet: Parallel Reverse Attention Network for Polyp Segmentation

针对1）息肉大小、颜色、纹理具有多样性；2）息肉与周围粘膜组织边界并不清晰。两个问题，提出了使用反向注意力模块挖掘边界信息，以实现边界细化结肠镜检查是一种检测结直肠息肉的有效技术，而结直肠息肉与结直肠癌高度相关。在临床实践中，从结肠镜图像中分割息肉非常重要，因为它为诊断和手术提供了有价值的信息。（i）同类型的息肉在大小、颜色和纹理方面具有多样性；（ii）息肉与其周围黏膜之间的边界并不清晰。为应对这些挑战，我们提出了一种用于结肠镜图像中准确息肉分割的并行反向注意力网络（PraNet）。

2025-02-26 15:08:15 944

原创【结肠息肉AI论文集】Polyper:BoundarySensitivePolypSegmentation

我们提出了一种新的针对息肉分割的边界敏感框架，名为Polyper。我们的方法受到一种临床方法的启发，经验丰富的医学从业者常常利用息肉内部区域的固有特征来处理模糊的边界。受此启发，我们提出明确利用息肉区域来增强模型的边界区分能力，同时尽量减少计算量。我们的方法首先通过形态学算子从初始分割图中提取边界和息肉区域，然后设计边界敏感注意力机制，利用息肉内部区域的特征来增强边界区域附近的特征，从而生成良好的分割结果。

2025-02-12 15:29:37 1213

原创【VOS源码解析-2024CVPR-Cutie】2、train_wrapper结构解析

如图所示，encode_mask函数（位于cutie\cutie\model]big_modules中）一共有五个数据。

2025-01-21 16:57:55 453

原创【VOS源码解析-2024CVPR-Cutie】1、train_wrapper结构解析

数据预处理如代码和图所示，最开始的输入数据data是一个字典类型，它包含以下五个变量，这里只说最重要的三个变量。将上述得到的所有特征图进行维度转换，将原来展平的时间维度重新提取出来。

2025-01-21 11:10:58 760

原创【VOS源码解析-2024CVPR-Cutie】2、trainner 结构解析

例如，在一些视觉模型中，像素编码器（backbone）用于提取图像特征，其参数量通常较大，且在训练初期需要较慢的学习速度来稳定地学习通用的特征表示；而一些特定的嵌入层（如位置嵌入、类别嵌入等）则用于为模型提供额外的先验信息或特定的编码方式，其参数量相对较少，学习速度可以稍快一些，以便更好地适应特定任务。model参数中以pixel_encoder开头的划分为pixel_encoder参数，以某些特定后缀结尾的划分为embeding参数，剩下的分为其余参数。如果此时迭代至训练末尾，则开启频繁保存。

2025-01-17 16:27:48 1018

原创【VOS源码解析-2024CVPR-Cutie】1、训练阶段概览

这里的pre训练方式和main训练方式的区别见AOT源码解析1~3.简单来说，pre训练是对单帧图像进行旋转、平移、裁剪的操作，生成4、5张fake图像，将原图和fake图像进行拼接，拼接成为伪视频进行vos model 训练。num_gpus = world_size：将world_size（分布式训练中的进程总数）赋值给num_gpus，表示检测到的GPU数量。info_if_rank_zero(f’Number of detected GPUs: {num_gpus}’)：记录检测到的GPU数量。

2025-01-15 14:02:48 977

原创【视频目标分割VOS-2023ECCV】Scalable Video Object Segmentation with Simplified Framework

背景目前流行的视频对象分割（VOS）方法通过几个手工制作的模块来实现特征匹配，这些模块分别执行特征提取和匹配。然而，根据经验，上述手工设计会导致目标交互不足，从而限制了 VOS 中的动态目标感知特征学习。方法为了解决这些局限性，本文提出了一个可扩展的简化 VOS（SimVOS）框架，利用单个变压器主干来执行联合特征提取和匹配。具体来说：1、SimVOS 采用了可扩展的 ViT 主干网，可同时进行特征提取以及查询特征和参考特征之间的匹配。

2024-10-11 16:48:17 1064

原创【视频目标分割VOS-2024ICCV】Spatial-Temporal Multi-level Association for Video Object Segmentation

现有的半监督视频对象分割方法要么专注于时间特征匹配，要么专注于时空特征建模。然而，它们没有同时解决足够的目标交互和高效并行处理的问题，从而限制了动态、目标感知特征的学习。为了克服这些限制，本文提出了一个时空多级关联框架，该框架联合关联参考帧、测试帧和对象特征，以实现足够的交互和并行目标 ID 关联，配合时空记忆库进行高效的视频对象分割。具体来说，我们构建了一个时空多级特征关联模块来学习更好的目标感知特征，将特征提取和交互表述为对象自注意力、参考对象增强和测试参考相关性的高效操作。

2024-10-10 16:12:17 985 1

原创【视频目标分割-2024CVPR】Putting the Object Back into Video Object Segmentation

背景：我们提出了Cutie模型，它是一个结合了对象级记忆读取的视频对象分割网络，它将记忆中的对象表征重新返还给视频目标分割结果。难点、不足：最近的VOS工作都采用自下而上的像素级记忆读取，它们由于匹配了噪声，尤其是在有干扰物的情况下，导致其结果在具有挑战性的数据下表现不佳。解决方案：Cutie通过采取一个小型的对象查询集合实现了自上而下的对象级记忆读取。它通过query-based object transformer与自下而上的像素级特征进行交互迭代。

2024-09-30 10:11:12 2659 2

原创 AOT源码解析4.5-AOT整体结构（Associating Objects with Transformers for Video Object Segmentation）

在这里，我们回顾AOT模型是如何使用Encoder和one-hot-mask模块处理输入图像和mask的。encoder处理输入图像输入数据的shape为[20，3，465，465]，在这里batch_size为4.因此代表输入数据包含4个batch的数据，每个batch包含5张图像。将输入数据输给mobilenetv2网络，提取四个不同比例的中间输出特征图，并将这些特征图分成五块。那么这五块的每一块都代表一张图像的特征。如图1右上角所示，按照图像进行对分块的特征图进行分类，每一个图像都包含四个特征图

2024-09-27 11:22:16 1178

空空如也

空空如也