Re-赟-CSDN博客

原创论文阅读 Memory Enhanced Global-Local Aggregation for Video Object Detection

人类如何识别视频中的物体？由于单一帧的质量低下，仅仅利用一帧图像内的信息可能很难让人们在这一帧中识别被遮挡的物体。我们认为人们识别视频中的物体有两个重要线索：全局语义信息和本地定位信息。最近，许多方法采用自注意机制，以增强关键帧中的特征，使用全局语义信息或本地定位信息之一。在本文中，我们介绍了一种记忆增强的全局-本地聚合（MEGA）网络，这是首批全面考虑全局和本地信息的尝试之一。此外，借助一种新颖且精心设计的长程记忆（LRM）模块，我们提出的MEGA可以使关键帧访问比以往任何方法都多得多的内容。

2023-10-16 21:28:16 773

原创【mmdetection代码解读 3.x版本】FPN层的解读

【代码】【mmdetection代码解读 3.x版本】FPN层的解读。

2023-10-13 15:20:22 320

原创 Pycharm远程debug代码，一直进入remote_sources

最近debug发现代码一直跳转到 AppData\Local\JetBrains\PyCharm2022.2\remote_sources\xxx这样的目录下，查找百度也没有找到解决的方法。最后发现，在Run的配置这，有一个Path mappings是空的，把这里的映射填成本地项目和远程项目的映射就好了。但从而有了一个疑问，之前在Deployment中已经配置了映射不知道为什么没有起到作用。

2023-10-11 22:03:21 677 2

原创【mmdetection代码解读 3.x版本】以Fcos+FasterRcnn为例

因为之前一直在搞DOTA数据集的旋转框检测，所以一直在用mmrotate作为主要工具。现在回来重新搞mmdetection框架发现有了不小的变化，出了3.x版本的新内容。相比于之前的版本变化比较大，因此正好做一个代码解读与之前发布的2.x版本进行对照。新版本最让我惊喜的是可以将单阶段检测器作为 RPN进行两阶段的检测，官方文档如下按照官方文档的要求我们将Fcos作为RPN的提取网络，为ROI提取proposal，具体配置文件如下_base_ = [

2023-10-10 16:51:18 431

原创论文阅读 Extended Feature Pyramid Network for Small Object Detection

小目标检测仍然是一个未解决的挑战，因为仅凭几个像素很难提取小目标的信息。虽然特征金字塔网络中的scale-level corresponding detection 减轻了这个问题，但我们发现不同尺度的特征耦合仍然损害了小目标的性能。在本文中，我们提出了一种扩展特征金字塔网络（EFPN），其中包括一个额外的高分辨率金字塔级别，专门用于小目标检测。具体来说，我们设计了一个名为“feature texture transfer”（FTT）的新模块，用于super-resolve 特征并提取区域细节。

2023-09-21 16:43:47 281 2

原创论文阅读 Self-Mimic Learning for Small-scale Pedestrian Detection

检测小尺度行人是行人检测中最具挑战性的问题之一。由于缺乏视觉细节，小尺度行人的 representations 往往难以与背景杂乱物区分开。本文深入分析了小尺度行人检测问题，揭示了小尺度行人 representations 较弱是分类器漏检的主要原因。为解决这一问题，我们提出了一种新颖的自我模仿学习（Self-Mimic Learning，简称SML）方法，以提高小尺度行人的检测性能。我们通过模仿大尺度行人的丰富 representations 来增强小尺度行人的 representations。

2023-09-14 10:13:14 216

原创代码解读 FCOS网络（基于mmrotate框架）

这个是FCSO的初始化类。

2023-08-31 17:10:50 477 1

原创论文阅读 FCOS: Fully Convolutional One-Stage Object Detection

我们提出了一种全卷积单阶段目标检测器（FCOS），以per-pixel 预测的方式解决目标检测问题，类似于语义分割。几乎所有最先进的目标检测器，如RetinaNet、SSD、YOLOv3和Faster R-CNN，都依赖于预定义的锚框（anchor boxes）。相比之下，我们提出的FCOS检测器是无锚框的，也无需提出建议区域（proposals）。通过消除预定义的锚框集，FCOS完全避免了与锚框相关的复杂计算，比如训练过程中的overlapping计算。

2023-08-30 17:07:55 650

原创论文阅读 The Power of Tiling for Small Object Detection

基于深度神经网络的技术在目标检测和分类方面表现出色。但这些网络在适应移动平台时可能会降低准确性，因为图像分辨率的增加使问题变得更加困难。在低功耗移动设备上实现实时小物体检测一直是监控应用的基本问题之一。在本研究中，我们解决了在高分辨率微型空中飞行器（MAV）图像中检测行人和车辆的问题。为此，我们利用PeleeNet，据我们所知，这是在移动GPU上效率最高的网络模型，以SSD网络的骨干和earlier layer中的38x38特征图。

2023-08-26 15:28:30 715

原创论文阅读 Sinet: A scale-insensitive convolutional neural network for fast vehicle detection

基于视觉的车辆检测方法近年来随着深度卷积神经网络（CNN）的发展取得了令人难以置信的成功。然而，现有的基于CNN的算法在目标检测任务中存在一个问题，即卷积特征对尺度敏感，而交通图像和视频中包含具有大尺度变化的车辆。在本文中，我们深入探讨了尺度敏感性的源头，并揭示了两个关键问题：1）现有的RoI池化破坏了小尺度目标的结构；2）对于大尺度变化的 intra-class distance 超出了单个网络的表示能力。基于这些发现，我们提出了一种用于快速检测具有大尺度变化车辆的尺度无关卷积神经网络（SINet）。

2023-08-25 10:42:58 155

原创论文阅读 FOCUS-AND-DETECT: A SMALL OBJECT DETECTION FRAMEWORK FOR AERIAL IMAGES

航空影像中的目标检测仍然是一项具有挑战性的任务。航空影像中的特定问题使得检测更加困难，例如小尺寸物体、密集排列的物体、不同尺寸和方向的物体等。为了解决小尺寸物体检测问题，我们提出了一个名为“Focus-and-Detect”的两阶段目标检测框架。第一阶段由一个受高斯混合模型监督的目标检测器网络组成，生成构成聚焦区域的物体群集。第二阶段同样是一个目标检测器网络，预测聚焦区域内的物体。我们还提出了Incomplete Box Suppression（IBS）方法，以克服区域搜索方法的截断效应。

2023-08-24 11:13:00 794

原创论文阅读 Better to Follow, Follow to Be Better: Towards Precise Supervision of Feature Super-Resolution

尽管基于proposal的卷积神经网络（CNN）模型在目标检测方面取得了成功，但由于小区域（RoI）中包含的信息有限，仍然很难检测到小物体。缓解这个问题的一种方法是使用超分辨率（SR）技术增强小RoI的特征。我们研究了如何改进feature-level超分辨率，特别是针对小物体检测，并发现通过以下方式可以显著提高性能：（i）利用适当的高分辨率目标特征作为超分辨率模型训练的监督信号，以及（ii）匹配输入低分辨率特征和目标高分辨率特征的relative receptive fields。

2023-08-23 15:10:14 109

原创论文阅读 CAD-Net: A Context-Aware Detection Network for Objects in Remote Sensing Imagery

准确且稳健地检测光学遥感图像中的多类对象对许多现实世界应用至关重要，如城市规划、交通控制、搜索和救援等。然而，针对ground-level传感器捕获的图像设计的目标检测技术，在直接应用于遥感图像时通常会出现明显的性能下降，这在很大程度上是由于遥感图像中对象外观差异造成的，这些差异包括稀疏纹理、低对比度、任意方向、大尺度变化等。本文提出了一种新颖的目标检测网络（CAD-Net），它利用attention-modulated特征以及全局和局部上下文来解决从遥感图像中检测对象面临的新挑战。

2023-08-09 15:42:05 412

原创【代码解读】RRNet: A Hybrid Detector for Object Detection in Drone-captured Images

init_operator 的返回值是RRNetOperator类，紧接着调用operator.training_process()进行训练，所以需要查看RRNetOperator的定义（详见 3 节）。找到程序的主入口train.py这个类，可以看到这个类比较简单，大部分是引用其他类。具体每一个类的定义可以从不同小节中查看。根据配置文件我们可以知道，model的backbone是hourglass。接下来来看fill_duck的具体定义。首先来看这个类的初始化函数。

2023-08-07 17:23:03 879 2

原创论文阅读 RRNet: A Hybrid Detector for Object Detection in Drone-captured Images

我们提出了一种名为RRNet的混合检测器，用于在城市场景无人机（UAVs）和无人机拍摄的图像中进行目标检测。在这种具有挑战性的任务中，目标通常呈现出各种不同的大小，并且非常密集。因此，我们将anchor free检测器与re-regression模块相结合。通过摒弃prior anchors，我们的模型不再需要对边界框大小进行回归，从而在密集场景中实现了更好的多尺度目标检测性能。

2023-08-06 15:10:28 1779

原创论文阅读 A full data augmentation pipeline for small object detection based on gan

小目标物体（像素大小低于32 × 32像素的物体）的目标检测准确率，落后于较大物体的准确率。为了解决这个问题，人们设计了新的架构并发布了新的数据集。尽管如此，许多数据集中小目标物体的数量还不足以进行训练。生成对抗网络（GANs）的出现为训练架构提供了一种新的数据增强可能性，而无需对小目标物体进行大规模数据标注。在本文中，我们提出了一个完整的小目标物体检测数据增强流程，将基于GAN的物体生成器与目标分割、图像修复和图像融合技术相结合，以实现高质量的合成数据。

2023-07-27 17:47:20 368 2

原创论文阅读 R2 -CNN: Fast Tiny Object Detection in Large-scale Remote Sensing Images

最近，卷积神经网络在目标检测方面取得了令人瞩目的进步。然而，在大规模遥感图像中检测微小目标仍然具有挑战性。首先，极大的输入尺寸使得现有的目标检测解决方案在实际应用中过于缓慢。其次，复杂的大量背景导致严重的 false alarms。此外，超微小目标增加了准确检测的难度。为了解决这些问题，我们提出了一种名为遥感区域卷积神经网络（R2-CNN）的self-reinforced network，由主干网络Tiny-Net、中间的全局注意力块和最终的分类器和检测器组成。

2023-07-25 11:01:45 151

原创论文阅读 Scale-Aware Trident Networks for Object Detection

Scale variation是目标检测中的一个关键挑战。在这项工作中，我们首先进行了一项controlled实验，以研究感受野在目标检测的 scale variation中的影响。基于探索实验的结果，我们提出了一种新颖的三叉网络（TridentNet），旨在生成具有uniform representational能力的scale-specif的特征图。我们构建了一个并行的多分支架构，每个分支共享相同的 transformation parameters，但具有不同的感受野。

2023-07-20 17:18:35 168

原创论文阅读 QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection

在过去几年中，基于深度学习的通用目标检测取得了巨大的成功，但对小物体的检测性能和效率仍然不尽如人意。促进小物体检测最常见和有效的方法是使用高分辨率的图像或特征图。然而，这两种方法都会导致昂贵的计算，因为随着图像和特征的尺寸增加，计算成本将呈平方增长。为了兼顾两者的优势，我们提出了QueryDet，它使用一种新颖的查询机制来加速基于特征金字塔的目标检测器的推理速度。

2023-07-19 16:46:15 143

原创论文阅读 Density Map Guided Object Detection in Aerial Images

高分辨率航空图像中的目标检测是一项具有挑战性的任务，原因如下：1）目标尺寸的巨大变化，2）目标的非均匀分布。一种常见的解决方案是将大的航空图像分成小的（均匀的）片段，然后在每个小片段上应用目标检测。在本文中，我们研究了图像裁剪策略来解决这些挑战。具体而言，我们提出了一种Density-Map引导的目标检测网络（DMNet），其灵感来自于观察到图像的目标密度图呈现了目标在图像中的分布情况，通过 pixel intensity来表示。由于像素强度的变化，它能够判断一个区域是否有目标，从而为统计裁剪图像提供指导。

2023-07-19 15:09:01 221

原创论文阅读 Clustered Object Detection in Aerial Images

在航拍图像中检测目标具有至少两个挑战性因素：(1) 目标对象（如行人）在像素上非常小，使其很难与周围背景区分开；(2) 目标通常分布稀疏且不均匀，使得检测非常低效。在本文中，我们观察到这些目标通常是聚集的，解决了这两个问题。我们提出了一个聚类检测(ClusDet)网络，将目标聚类和检测统一到一个端到端的框架中。ClusDet的关键组件包括一个聚类建议子网络(CPNet)，一个尺度估计子网络(ScaleNet)，以及一个专用的检测网络(DetecNet)。

2023-07-18 16:07:29 209

原创论文阅读 Perceptual Generative Adversarial Networks for Small Object Detection

因其低分辨率和噪声，检测小物体具有很大的挑战。现有的物体检测流程通常通过学习多个尺度上所有物体的representations来检测小物体。然而，这种临时架构的性能提升通常受限于计算成本。在这项工作中，我们通过开发一种单一架构来解决小物体检测问题，将小物体的representations提升到"super-resolved"，实现与大物体类似的特征，从而更有利于检测。

2023-07-17 17:21:53 177

原创论文阅读 Augmentation for small object detection

近年来，物体检测取得了令人瞩目的进展。尽管有了这些改进，但小物体和大物体的检测性能之间仍存在显著差距。我们对MS COCO数据集上的当前最先进模型Mask-RCNN进行了分析。我们发现小物体的ground-truth与预测的锚框之间的重叠远远低于预期的IoU阈值。我们推测这是由两个因素造成的：（1）只有少数图像包含小物体，（2）即使在包含小物体的每个图像中，小物体也没有足够的出现次数。因此，我们提出对那些包含小物体的图像进行过采样，并通过多次复制粘贴小物体来增强每个图像。

2023-07-14 16:30:07 95

原创论文阅读 SLICING AIDED HYPER INFERENCE AND FINE-TUNING FOR SMALL OBJECT DETECTION

在surveillance applications中，检测场景中的小物体和远处的物体是一个主要挑战。这些物体在图像中由少数像素表示，并且缺乏足够的细节，这使得它们难以使用传统检测器进行检测。本研究提出了一种名为Slicing Aided Hyper Inference (SAHI)的开源框架，为小物体检测提供了通用的slicing aided inference和fine-tuning pipeline。

2023-07-13 16:17:09 266

原创论文阅读 You Only Look One-level Feature

本文重新审视了特征金字塔网络（FPN）在单阶段检测器中的应用，并指出FPN的成功在于其对目标检测优化问题的divide-and-conquer解决方案，而不是多尺度特征融合。从优化的角度出发，我们介绍了一种替代性的方法来解决这个问题，而不是采用复杂的特征金字塔，我们仅利用一个级别的特征进行检测。基于简单高效的解决方案，我们提出了YOLOF，在我们的方法中，提出了两个关键组成部分，即扩张编码器（Dilated Encoder）和均匀匹配（Uniform Matching）。

2023-07-12 19:09:43 61

原创论文阅读 Relation Networks for Object Detection

虽然多年来人们一直相信对象之间的modeling relations会有助于目标识别，但在深度学习时代尚未找到这一想法有效的证据。本研究提出了一个object relation module。它通过对象的外观特征和几何特征之间的相互作用同时处理一组对象，从而可以对它们的关系进行建模。模块轻量且原地计算，不需要额外的监督，并且可以轻松嵌入到现有的网络中。

2023-07-10 16:45:10 199

原创论文阅读 Objects as Points

Detection将物体识别为轴对齐的框，大多数成功的object detectors会列举出几乎穷尽的潜在物体位置并对每个位置进行分类。这种方法浪费资源、效率低下，并需要额外的后处理。在本文中，我们采用了一种不同的方法。我们将物体建模为一个单独的点——其边界框的中心点。我们的检测器使用keypoint estimation来找到中心点，并回归到所有其他物体属性，例如大小、3D位置、方向。

2023-07-05 16:54:00 264

原创论文阅读 Oriented Object Detection in Aerial Images with Box Boundary-Aware Vectors

航空图像中的面向对象检测是一项具有挑战性的任务，因为航空图像中的对象以任意方向显示，并且通常密集堆积。当前的面向对象检测方法主要依赖于两阶段的基于锚点的检测器。然而，基于锚点的检测器通常在正负锚框之间存在严重的不平衡问题。为此，我们首先检测对象的中心关键点，然后基于这些关键点回归边界感知向量（BBAVectors），边界感知向量在笛卡尔坐标系的四个象限中分布，适用于任意方向的对象。实验证明，学习边界感知向量优于直接预测面向边界框的宽度、高度和角度。

2023-07-05 15:16:59 282

原创【GFPN代码解读】搭建图神经网络

首先我们可以从train文件中定位到我们搭建图神经网络的部分，位于graph_FeaturePyramid这个类中。

2023-06-25 17:09:06 987

原创【mmrotate代码解读】S2ANet网络的结构

解释一下最后(18, 128, 128)的形状，offset 原本的形状为(16384, 9, 2)，经历了 offset.reshape(anchors.size(0), -1)变为(16384, 18)。与Faster-Rcnn不同，，一阶段的检测器使用规则并且密集的采样anchors回归边界框，并且直接对其进行分类。最后reshape(-1, feat_h, feat_w)变为(18, 128, 128)backbone使用的是Resnet网络，neck使用的是FPN，这里不做过多的阐述。

2023-06-09 16:28:03 631 1

原创【mmrotate代码解读】以FasterRcnn中的RPN+ROI部分为例

可以发现，主要代码位于self.rpn_head.forward_train这个函数，我们来看其定义，位于base_dense_head.py文件下。将FPN得到的5个特征值进行了卷积操作，将outs对结果和gt_bboxes和img_meta组合成一个元组，其中outs是维度为3和12的向量。关于valid_flag_list的代码我们就不细看了，这个主要是为了判断哪些anchor是有效的，看一下结果。我们首先定位到RPN部分代码的forward_train部分，位于two_stage.py文件下。

2023-06-05 17:06:39 1703 1

原创【mmdetection代码解读】以FasterRcnn+TinyPerson为例（二）

它可以是 None，或者是一个列表，列表中的每个元素都是一个 Tensor，形状为 (num_ignored_gts, 4)，num_ignored_gts 表示被忽略的真实边界框的数量，4 表示每个边界框的坐标信息。rpn_cls 是一个卷积层，输入通道数为 self.feat_channels，输出通道数为 self.num_anchors * self.cls_out_channels，卷积核大小为 1x1,这一层用于预测锚框的类别。这通常在评估阶段使用，用于计算预测结果的精确度。

2023-05-28 14:52:22 532 1

原创【mmdetection代码解读】以FasterRcnn+TinyPerson为例（一）

在上述代码中，ann_file 是注释文件的路径，通过调用 mmcv.load(ann_file) 来加载注释文件的内容。紧接着的许多行代码是对cfg的预处理，包含了custom_imports，cudnn_benchmark，work_dir，resume_from等属性的配置，这里不过多解释，来看cfg经过所有处理后的样子，这里面包含了所有的配置信息。可以看到，代码按照backbone，neck，rpn_head，roi_head，train_cfg，test_cfg的顺序构建每一个部分。

2023-05-12 10:56:36 1155 2

原创 Scale Match方法的代码阅读

具体而言，“SM” 技术通过在不同尺度的图像中使用相同的边界框坐标和标签来表示目标物体的位置和属性，从而在不同尺度的图像样本中实现一致性的标注。接下来，对尺寸进行排序，并根据给定的 except_rate 参数来裁剪尺寸分布的上下端，以剔除尺寸分布中的极端值。np.histogram 函数接受一个一维数组作为输入，返回两个值：直方图的计数值（也称为频数，表示每个 bin 中的数据数量）和 bin 的边界值（即直方图的横轴，表示数据的范围）至此，初始化函数的运行已经完成，接下来我们来看call执行函数。

2023-04-21 11:22:42 128

原创 Graph-FPN代码解读（4）

matched_gt_boxes根据索引得到最大iou的groundtruth值，大小为9441 * 4，之后将anchor_boxes和matched_gt_boxes进行_compute_box_target，将每一个特征的原本box值和最大iou的grountruth的box值计算偏差值和缩放值。swap_xy是用来交换x，y坐标的顺序。resize_and_pad_image是将图片进行大小的缩放变为224的大小，之后同样的将bbox的值也进行缩放使得box框符合变换后的尺寸。

2023-03-28 11:14:31 366

原创 Graph-FPN代码解读（3）

对于非布尔型张量，非0的元素都判为True。tf.where还有一个用法：tf.where(input, a,b)，其中a，b均为尺寸一致的tensor，实现a中对应input中true的位置的元素值不变，其余元素由b中对应位置元素替换。最后进行loss的相加，tf.reduce_sum()作用是按一定方式计算张量中元素之和，axis指定按哪个维度进行加和，默认将所有元素进行加和。通过这个函数，我们原本一维的向量维度变为了80维，与特征向量相符合，同时取出原本总向量的后80维，作为分类任务的特征向量。

2023-03-28 11:13:20 133

空空如也

树莓派外接网卡出现问题