自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(84)
  • 收藏
  • 关注

原创 【Dockerv1】高频十大面试题&&基础知识&&常用指令

本文总结了Docker高频面试题,涵盖核心概念、网络模式、Dockerfile指令等关键知识点。主要内容包括:Docker与虚拟机的区别(轻量级vs强隔离)、5种网络模式(Bridge/Host/None/Container/自定义)的特点及适用场景、Dockerfile常用指令(FROM/RUN/CMD等)的功能差异,以及数据持久化、镜像优化等实用技巧。通过对比表格和示意图直观展示技术差异,帮助快速掌握Docker核心概念和实际应用场景。

2026-01-27 17:57:17 583

原创 cube-studio手动部署label_studio至“标注平台”(启动企业版的功能)

●外部访问 宿主机 Docker 容器 http://192.168.3.222:8088 → 宿主机 8088 端口 → 容器 8080 端口 ↓ ↓ Docker 网络映射 Label Studio 服务。

2026-01-05 15:05:57 607

原创 cube-studio中prometheus-k8s-0的镜像无法拉取

【代码】cube-studio中prometheus-k8s-0的镜像无法拉取。

2025-12-11 16:00:48 80

原创 kubectl停止工作(K8S集群服务未启动)| Unit kubelet.service could not be found.| 系统重启后RKE集群需要重新手动拉起

如果是在ranhcer 的ui界面手动配置集群信息。

2025-12-11 15:28:17 100

原创 rancher新建集群出现Cluster agent is not connected/更新ranhcer的CA证书

这里的网址替换成你自己的server网址,我的是主机内网(即hostname -I后第一个网址)根据你的证书信息,CA 应该issuer和subject相同的那个。这里如果还是无法连接,则查看是不是DNS被劫持,

2025-12-11 14:34:50 323

原创 让Kubernestes(cube-studio)能使用GPU资源

这一步可能会发生找不到有效的openGPG数据,原因是CA证书出错。2 安装 NVIDIA Container Toolkit。1 首先安装Ndia驱动。

2025-12-11 13:38:46 140

原创 【bug】系统CA证书毁坏导致找不到有效的 OpenPGP 数据

但是我这样做没用,对了,如何查看是否是CA证书导致的OpenGPG数据无效,只需要运行。于是把rancher证书删掉后更新即可。受不了,这一看就是本比豆包搞的。于是我仔细检查CA证书。

2025-12-11 13:29:37 266

原创 cube-studio发生upstream connect error or disconnect/reset before headers错误

这里经过多轮尝试,得出的结论是DNS 被劫持,我使用了代理软件clash。2 查看是否有劫持的代理信息,若有则删除。

2025-12-10 17:34:10 96

原创 rancher重新创建新集群一直出错[controlPlane] Failed to upgrade Control Plane: [[host 192.168.3.222 not ready]]

这样后可以顺利清理先前的配置信息,再次创建新集群后成功。并不能完全解决,这里给出新的方法。

2025-12-08 14:58:50 477

原创 在机器学习平台从0开始部署cube-studio(多次试验,无bug部署成功)

使用服务器部署cube-studio

2025-11-28 16:58:04 947

原创 【2021NeurIPS】Aligning Pretraining for Detection via Object-Level Contrastive Learning

图像级别的对比表征学习已被证明是一种十分有效的迁移学习通用模型,。在本文中,我们遵循这一原则提出了一种专门针对目标检测任务的预训练方法,我们在以下三个方面实现了对齐:1)通过选择性搜索边界框作为目标提议引入目标级别的表示2)3)预训练具备目标检测特性,例如目标级别的平移不变性和尺度不变性。我们的方法,称为选择性目标对比学习(SoCo),在使用Mask R-CNN框架的COCO检测任务上,取得了最先进的迁移性能结果。

2025-09-04 17:02:04 712

原创 FreeSOLO: Learning to Segment Objects without Annotations

2025-09-02 15:41:13 331

原创 【自监督VIT】DINO:Emerging Properties in Self-Supervised Vision Transformers

在本文探讨了自监督学习能否赋予视觉Transformer相比卷积网络更为独特和优异的特性?论文有以下三个观察:1、:自监督ViT的特征包含清晰的图像语义分割信息(比如物体边界),这在监督学习的ViT或ConvNets中不明显。2、:这些特征作为K-NN分类器,无需微调就在ImageNet上达到78.3%的top-1准确率,表明其特征判别性强。3、。===》论文将这些发现整合为一个简单的自监督方法,称为DINO(自蒸馏无标签方法),并将其解读为一种无需标签的自蒸馏形式。1、

2025-09-02 11:07:33 697

原创 【2024VideoQA(含论文综述)】Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-E

长期视频问答(VideoQA)是一项具有挑战性的视觉与语言融合任务,专注于对未剪辑的长期视频和多样化自由形式问题的语义理解,同时强调全面的跨模态推理以得出精确答案。传统方法通常依赖现成的特征提取器来绕过昂贵的计算开销,但往往导致与领域无关的模态不相关表示。此外,单模态理解与跨模态交互之间固有的梯度阻塞阻碍了可靠答案的生成。相比之下,最近出现的成功视频语言预训练模型能够实现成本效益高的端到端建模,但在特定领域的推理方面存在不足,并且在任务表述上存在差异。

2025-08-28 16:22:36 1049

原创 【自监督检测】HASSOD:Hierarchical Adaptive Self-Supervised Object Detection

人类视觉感知系统在无需明确监督的情况下学习以及理解对象的部分到整体的构成方面表现出卓越的能力。受这两种能力的启发,我们提出了层次自适应自监督目标检测(HASSOD),这是一种无需人工监督即可学习检测目标并理解其构成的新方法。HASSOD采用层次自适应聚类策略,基于自监督视觉表示将区域分组成目标掩码,并自适应地确定每张图像中的目标数量。此外,HASSOD通过分析掩码之间的覆盖关系并构建树结构,识别目标在构成方面的层次级别。这一额外的自监督学习任务带来了改进的检测性能和增强的可解释性。

2025-08-26 14:51:42 992

原创 【长视频理解-2024CVPR】MA-LMM:Memory-Augmented Large Multimodal Model for Long-Term Video Understanding

随着大型语言模型(LLMs)的成功,将视觉模型整合到LLMs中以构建视觉语言基础模型,最近引起了更多的关注。然而,现有的基于LLM的大型多模态模型(例如,Video-LLaMA、VideoChat)只能处理有限数量的帧,用于短视频理解。在本研究中,我们主要专注于设计一个高效且有效的模型,用于长期视频理解。与大多数现有工作试图同时处理更多帧不同,我们提出以在线方式处理视频,并将过去的视频信息存储在记忆库中。

2025-08-22 17:32:30 1594

原创 【VideoQA-ICCL2025】VideoQA-TA: Temporal-Aware Multi-Modal Video Question Answering

视频问答(VideoQA)在计算机视觉领域最近受到了相当多的关注,旨在生成依赖于语言和视觉推理的答案。然而,现有方法常常直接将视觉或文本特征与大型语言模型对齐,这限制了模态之间的深度语义关联,并阻碍了对空间和时间上下文中交互的全面理解,最终导致推理性能次优。为了解决这一问题,我们提出了一个名为VideoQA-TA的新型时间感知框架,用于多模态视频问答,通过在细粒度水平上对齐视频和问题,增强VideoQA的推理能力和准确性。设计了一种有效的时空注意力机制(STA)

2025-08-22 15:44:09 776

原创 【自监督检测-CVPR2023】Cut and Learn for Unsupervised Object Detection and Instance Segmentation

我们提出了Cut-and-LEaRn(CutLER),这是一种用于训练无监督目标检测和分割模型的简单方法。我们利用自监督模型的特性,在无需监督的情况下“发现”目标,并将其放大以训练一个无需人工标签的最先进的定位模型。CutLER首先使用我们提出的MaskCut方法为图像中的多个目标生成粗糙掩码,然后使用我们稳健的损失函数在这些掩码上学习一个检测器。我们还通过在模型的预测上进行自我训练来进一步提高性能。与以往的工作相比,CutLER更简单,与不同的检测架构兼容,并且能够检测多个目标。

2025-08-21 17:41:14 1122

原创 【2025GAVE竞赛文献参考--眼球血管动静脉分割合集】

今年(2022)一月份,Facebook AI Research和UC Berkeley一起发表了一篇文章A ConvNet for the 2020s,在文章中提出了ConvNeXt纯卷积神经网络,它对标的是2021年非常火的Swin Transformer,通过一系列实验比对,在相同的FLOPs下,ConvNeXt相比Swin Transformer拥有更快的推理速度以及更高的准确率,在ImageNet 22K上ConvNeXt-XL达到了87.8%的准确率。为进一步强化模型对血管宽度的感知,引入。

2025-08-21 16:16:11 1207

原创 【自监督检测-CVPR2022】DETReg: Unsupervised Pretraining with Region Priors for Object Detection

然后可以使用少量标签对最终的目标分类头进行微调,以获得比现有方法更好的性能。如SwAV [6],仅预训练检测器的主干网络,因此在预训练阶段之后的目标定位完全依赖于定位组件的随机初始化(绿色)。UP-DETR [16] 预训练了整个检测网络,但由于其预训练通过重新识别随机区域进行,因此在预训练后并不专门用于定位目标(橙色虚线)。我们的模型,DETReg,使用以目标为中心的预训练来预训练整个检测网络,并且在预训练阶段之后能够定位目标(蓝色)。图2. DETReg模型及其预训练任务。

2025-08-21 15:26:54 845

原创 【DINOv2】 Learning Robust Visual Features without Supervision

基于不同架构的Vision Transformer(ViT)(Dosovitskiy et al., 2016),我们训练了一系列名为DINOv2的视觉模型,并公开所有模型及训练代码。学习任务无关的预训练表征已成为自然语言处理(NLP)领域的标准方法。然而,文本引导的预训练会限制图像信息的保留——因为文本描述仅能近似图像的丰富内容,而复杂的像素级信息可能无法通过此类监督充分表征。别人的实验结果是:DINOv2作为提取特征的backbone效果很好,但是很难微调,用自己的数据集进行微调,效果会很差。

2025-08-20 13:17:57 379

原创 【DINO】DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

提出了DINO。进行了以下改良:1、采用对比方式进行去噪训练3、DINO在框预测时采用了两次前瞻机制取得的成果是:1、以resnet50为backbone时,在24个周期就能达到51.3AP,和之前的Detr类模型比显著提升。2、使用SwinL主干网络并在Objects365数据集上进行预训练后,在COCO val2017(63.2AP)和test-dev(63.3AP)上均取得了最佳结果。

2025-08-20 10:54:02 1186

原创 【结肠息肉分割论文合集】A survey on deep learning for polyp segmentation: techniques, challenges and future tren

息肉的早期检测和评估在结直肠癌(CRC)的预防和治疗中起着至关重要的作用。息肉分割为协助临床医生准确定位和分割息肉区域提供了有效的解决方案。过去,人们常常依赖手动提取的低层次特征,如颜色、纹理和形状,这些特征往往在捕捉全局上下文方面存在问题,并且对复杂场景缺乏鲁棒性。随着深度学习的出现,越来越多基于深度学习网络的医学图像分割算法不断涌现,在该领域取得了重大进展。本文对息肉分割算法进行了全面的综述。我们首先回顾了一些基于手动提取特征的传统算法和深度分割算法,然后描述了与该主题相关的基准数据集。

2025-07-25 16:39:30 1402

原创 Mask2Former代码详解--Model主体详解

首先经过backbone(resnet50)后,得到后四层的特征层输出,然后将后三层输入进 MSDeformAttnTransformerEncoderOnly模块,计算多尺度拼接的可形变注意力网络,最终得到:经过注意力网络的特征图y、各层次特征图形状记录、各层次特征图的起始坐标索引列表(就是1.中的level_strat_index)

2025-07-24 16:54:30 1476

原创 Mask2Former代码详解--ADE200KDataset数据集

batch_width, batch_height = self.get_batch_size(batch) # 计算批次尺寸out = {}masks = []img = Image.fromarray(img) # 将numpy数组转为PIL图像return outraw_img:原始输入图像,list列表。images:将原始输入图像进行缩放填充到固定大小,然后进行数值归一化、标准化,并将h,w,c更换为维度c,h,w。masks:将mask进行缩放和填充。

2025-07-22 14:36:08 1083

原创 【分割】RRWNet: Recursive Refinement Network for effective retinal artery/vein segmentation

视网膜血管的口径和配置是多种疾病和医疗状况的重要生物标志物。对视网膜血管进行彻底分析需要对血管进行分割,并将其分类为动脉和静脉,这些任务通常在通过眼底摄影获得的彩色眼底图像上完成。然而,手动执行这些任务不仅劳动强度大,而且容易出现人为错误。尽管已经提出了几种自动化方法来解决这一任务,但现有技术由于明显的分类错误影响了分割图的拓扑一致性,仍面临挑战。在本研究中,我们提出了RRWNet,这是一个新颖的端到端深度学习框架,旨在解决这一局限性。该框架包含一个全卷积神经网络,能够。

2025-07-08 15:37:48 877

原创 【2024 CVPR-Backbone】RepViT: Revisiting Mobile CNN From ViT Perspective

近期,轻量级视觉Transformer(ViT)在资源受限的移动设备上表现出比轻量级卷积神经网络(CNN)更优异的性能和更低的延迟。研究人员已发现轻量级ViT与轻量级CNN之间存在许多结构关联,但二者在模块结构、宏观和微观设计上的显著架构差异尚未得到充分研究。本研究从ViT视角重新审视轻量级CNN的高效设计,并强调其在移动设备上的应用前景。

2025-06-27 15:43:14 1128

原创 【2025 CVPR Backbone】See Large, Focus Small

视觉网络设计始终是计算机视觉领域的研究焦点[19,24,26,52,53,102]。其中,卷积神经网络(CNNs)[26,31,40,41,53]与视觉Transformer(ViTs)[19,52,67,78,92,97]作为两大主流架构,已在各类视觉任务中取得显著突破[3,4,25,74,86,88,96]。然而,传统CNN与ViT均存在计算成本高昂的问题,严重制约了它们在实时场景中的实际部署[46,51]。为突破这一瓶颈,近期研究聚焦于轻量化视觉网络设计[7,36,59,61,64,80]。

2025-06-27 11:09:38 1598

原创 【2021 ICCV-Backbone 结构解析】Swin Transformer

swin transformer架构和CNN架构类似,都是逐层下采样倍数增加。

2025-06-25 15:34:33 831

原创 【2023arxiv-backbone-概述总结】Mamba: Linear-Time Sequence Modeling with Selective State Spaces

接着利用这些生成权重执行循环扫描操作,这样特定的输入就能生成接近0的权重,从而清除输出向量中的信息,而其他输入则能生成接近1的权重,保留先前的输入信息。线性RNN的做法是将先前处理信息的操作由卷积的非线性操作替换成线性操作(如图所示,左边代表常规RNN,使用的操作方式是卷积。在标准RNN中,输出向量和输入向量的维度是相同的,Mamba则将输出向量的维度扩充了16倍,这使得它能够存储更多来自先前输入的信息。根据前面的推导,我们可以发现,当RNN的权重为1,其余输入为0时,梯度更新时的状态是稳定的。

2025-06-24 16:18:20 1086

原创 【2021 ICCV-Backbone-文献】Swin Transformer: Hierarchical Vision Transformer using Shifted

本文介绍了一种新的视觉 Transformer,称为 Swin Transformer,它能够作为计算机视觉的通用骨干网络。将 Transformer 从语言领域适应到视觉领域所面临的挑战源于这两个领域之间的差异,例如视觉实体尺度的较大变化以及图像中像素的高分辨率与文本中单词的对比。为了解决这些差异,我们提出了一种分层 Transformer,其表示是通过移位窗口计算得出的。移位窗口方案通过将自注意力计算限制在不重叠的局部窗口内,同时又允许跨窗口连接,从而带来了更高的效率。

2025-06-20 16:47:10 1031

原创 【2025 CVPR-Backbone-文献】Building Vision Models upon Heat Conduction

。HCO的计算复杂度为O(N^1.5),因为它可以通过离散余弦变换(DCT)操作实现。HCO是一种即插即用的模块,与深度学习主干网络结合后可以产生具有全局感受野的视觉表示模型(称为vHeat)。在各种视觉任务的实验中表明,除了性能更强之外,与Swin-Transformer相比,vHeat实现了高达3倍的吞吐量、减少80%的GPU内存分配以及减少35%的计算浮点运算量(FLOPs)。和。

2025-06-13 16:41:52 1106

原创 【SCI论文写作】不同模型性能对比图绘制

如图所示,是论文中常见的模型性能对比图,往往是对比同一个数据集中,不同model的准确率情况,来显示自己模型的优越性。使用python进行绘制,代码如下,可直接复制。

2025-05-21 16:05:57 928

原创 【综述】视频目标分割VOS

近年来,基于注意力机制的VOS方法取得了显著进展,其中AOT通过引入基于Transformer的层次传播机制,实现了从过去帧到当前帧的信息传播,并将当前帧的特征从目标无关(object-agnostic)转换为目标特定(object-specific)。视频目标分割(VOS)是视频理解中的一个基础任务,其目标是根据视频序列中第一帧提供的目标掩码,跟踪并分割整个视频中的目标。视频目标分割(VOS)是视频理解中的一个基础任务,特别是在半监督设置中,给定第一帧的实例标注,算法需要分割出其他帧中的实例。

2025-05-20 11:23:16 1869

原创 【深度学习基础/面试高频问题】常见的归一化

批量归一化(Batch Normalization, BN)是一种通过归一化层输入来加速深度神经网络训练的技术。它通过减少内部协变量偏移,使得网络能够使用更高的学习率,并且减少对参数初始化的依赖。BN的核心思想是对每个小批量数据进行归一化,使其均值为0,方差为1,并通过可学习参数γ和β进行缩放和偏移,以恢复网络的表示能力。实验表明,BN显著加速了训练过程,并提高了模型性能,特别是在大规模图像分类任务中。然而,BN的效果依赖于小批量的大小,并且在循环神经网络(RNN)中的应用并不直观。为了解决这些问题,层归一

2025-05-19 13:36:26 827

原创 【深度学习基础/面试高频问题】归一化-为何BN层能帮助模型优化

Batch Normalization(BN)在深度学习中的有效性通常被认为是通过减少内部协变量偏移(ICS)来实现的,即通过稳定层输入的分布来优化训练过程。然而,研究表明,BN的成功实际上与ICS的减少关系不大,而是通过使损失函数的表面更加平滑,从而使得梯度下降算法更加稳定和有效。这种平滑效果使得BN能够使用更大的学习率,加速网络收敛,并对超参数的选择更加鲁棒。此外,研究还发现,BN的这种平滑效果并非其独有,其他归一化技术也能产生类似甚至更强的效果。这些发现不仅挑战了传统的BN有效性解释,也为理解神经网络

2025-05-16 13:29:19 695

原创 【SAM2代码解析】数据集处理3--混合数据加载器(DataLoader)

self._setup_dataloaders() 设置数据加载器。配置信息赋值给实例变量。初始化其他配置信息…

2025-04-30 15:59:19 426

原创 【SAM2代码解析】数据集处理2

这里的逻辑是,我们使用segment_load方法得到的mask是true.false填充的,此时直接计算sum,若和>0,则说明存在obj。使用segment_loader的load方法,得到对象mask字典,字典的key是调色盘掩码png图像中,不同对象自身对应的像素值,字典的value是将不同对象分离后得到的单对象mask掩码,掩码的值是True和False。随机采样对象ID:从可见对象ID列表中随机采样max_num_objects个对象ID,如果可见对象ID少于最大值,则全部采样。

2025-04-29 11:20:10 877

原创 【SAM2代码解析】数据集处理1

原始视频/标注…↓…[vos_segment_loader.py] → 加载掩膜…↓…[vos_raw_dataset.py] → 生成VOSVideo(元数据+帧列表)…↓…[vos_dataset.py] → 调用VOSSampler选择帧/对象 → 构造VideoDatapoint…↓…[transforms.py] → 应用翻转/缩放/马赛克等增强 → 标准化Tensor…↓…

2025-04-28 11:27:29 1317 5

原创 【SAM2代码解析】training部分代码详解-训练流程

【代码】【SAM2代码解析】training部分代码详解-训练流程。

2025-04-25 16:45:27 1567

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除