自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 AOT源码解析3

前置阅读papergithub文献阅读笔记代码模块AOT源码解析1AOT源码解析2代码分析1.训练模块初始化1.1 设置GPU并打印配置属性#==================================================设置GPU并打印配置属性=================================================== #------------选择GPU和参数------------- self.g

2024-09-14 15:09:24 402

原创 AOT源码解析2

这里值得注意的是,源代码中将BatchNorm2d进行冻结,同时选择在训练时加载backbone的预训练权重后不冻结backbone层。它是所有神经网络模块的基类,提供了一种组织层(Layer)、激活函数和损失函数的方式,使得模型可以方便地进行训练和推理。这段代码定义了一个名为 FrozenBatchNorm2d 的类,它是 torch.nn.Module 的子类,用于创建一个冻结的批量归一化层(BatchNorm)。在这个类中,批量统计数据(均值和方差)和仿射参数(权重和偏置)都被固定,不参与训练。

2024-09-13 13:48:30 888

原创 AOT源码解析1

AOT代码分析前置阅读代码模块代码分析1静态数据处理1.1引入包1.2 继承Dataset类1.3 数据初始化1.4 获取数据长度1.5 获取数据2 视频数据处理2.1 数据初始化-父类VOSTrain2.2 数据初始化-子类DAVIS2017_Train2.3 获得数据长度2.4 获得数据前置阅读papergithub文献阅读笔记[有标注的代码]-github待公开,等所有代码解析更新完后会上传代码模块[数据处理]代码分析1静态数据处理视频目标分割中的静态数据处理,通常是将单帧

2024-09-12 16:58:34 1251

原创 【视频目标分割-VOST数据集】Breaking the “Object” in Video Object Segmentation

当物体变幻时,它的外观可能转瞬即逝。例如当鸡蛋被打碎或者纸张被撕破时,他们的颜色、形状和质地都会发生巨大的变化。除了身份本身外,几乎不保留任何原始特征。然而在现有的视频分割基准中,基本上都没有注意这一重要现象。在这项工作中,我们通过收集一个新数据集(变换下的视频对象分割-VOST)来填补这一空白。该数据集由700多个在不同环境中捕获的高分辨率视频组成,这些视频平均长度为21秒,并用实例掩码进行密集标记。我们采用谨慎的多步骤方法,以确保这些视频重点关注复杂的物体变换,捕捉它们的全时间范围。

2024-09-11 15:55:16 799

原创 【视频目标分割-2021 NeurIPS】Associating Objects with Transformers for Video Object Segmentation

本文研究了如何在具有挑战性的多目标场景下实现更好、更高效的嵌入学习,以解决半监督视频对象分割问题。最新的方法通过学习解码具有单一正对象的特征,因此在多目标场景下必须分别匹配和分割每个目标,这会消耗多倍的计算资源。为了解决这个问题,我们提出了一种将对象与变换器关联起来的方法(AOT),以统一匹配和解码多个对象。具体来说,AOT采用了一种识别机制,将多个目标关联到同一高维嵌入空间中。因此,我们可以像处理单个对象一样高效地同时处理多个对象的匹配和分割解码。

2024-09-10 14:37:25 1522

原创 【视频目标分割-2024cvpr】RMem: Restricted Memory Banks Improve Video Object Segmentation

限制记忆库的大小。这与为了容纳大量历史信息而不断扩大记忆库的普遍做法不同。我们特别设计了“记忆解码”研究,为这一策略提供了一个关键的洞察:扩大记忆库,虽然看似有益,实际上却增加了VOS模块解码相关特征的难度,因为冗余信息造成了混淆。通过将记忆库限制在有限数量的关键帧上,我们实现了VOS准确性的显著提高。这个过程平衡了帧的重要性和新鲜感,以在有限容量内保持信息丰富的记忆库。此外,受限的记忆库减少了训练推理间记忆长度的差异,与持续扩张相比。

2024-09-09 14:13:10 1100

原创 【视频目标分割-2024cvpr】Guided Slot Attention for Unsupervised Video Object Segmentation

无监督视频对象分割是指分割出视频序列中最引人注目的对象。然而,复杂背景和多个前景对象的存在使得这一任务具有挑战性。针对这一问题,提出了一种引导槽注意力网络来增强空间结构信息,获得更好的前景-背景分离。根据与模板信息的交互,对用query指导初始化的前台和后台槽进行迭代细化。此外,为了改善槽-模板的交互性,有效融合目标帧和参考帧的全局和局部特征,引入了K近邻滤波和特征融合Transformer。实验结果表明,该方法在两个常用的数据集上均达到了最佳的性能。

2024-09-06 16:26:48 1321

原创 【交互式分割】Reviving Iterative training with Mask Guidance for Interactive Segmentation

问题:最近基于点击的交互式分割已经证明通过不同的推理优化策略可以达到最先进的结果。这些方法的计算量比前馈模型的消耗还要大,因为它们在推理期间运行向后的梯度,此外在流行的移动框架中不知向后传递,这使得在嵌入式设备上不住这样的方法变得复杂。方法:在本文中,我们研究了交互式分割的设计选择,并发现无需任何额外的优化方案即可获得最先进的结果。我们提出了一个简单的基于点击的交互式分割,并采用前面的步骤分割掩模前馈模型,它不仅可以分割一个全新的对象,还可以纠正现有的掩模。

2024-08-20 16:06:19 916

原创 bug记录之安装mmcv-full失败

安装mmcv_full失败记录

2024-08-20 10:40:42 311

原创 【文献阅读笔记】Video-based AI for beat-to-beat assessment of cardiac function

人类对心脏功能的评估集中在有限的心动周期样本上,尽管接受了多年的训练,但观察者之间存在显著的差异性(评估有差异是不可避免的,并且这种差异造成的危害很大)模型算法的评测任务:分割左心室、估计射血分数和评估心肌病等关键任务(具体可见“二 基于视频的深度学习模型”,每一个评测任务都使用不同模型方案 )

2024-06-26 15:04:05 1558

原创 负荷超声心动图第一部分chapter1-阅读笔记

负荷超声心动图:历史及展望

2024-06-25 14:40:37 1418

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除