![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
目标检测
文章平均质量分 88
量子-Alex
这个作者很懒,什么都没留下…
展开
-
【目标检测】NMS算法的理论讲解
②根据置信度的阈值过滤已有的预测框,根据我们设置的置信度的阈值T,假设我们现在设置阈值T为0.7,那么现有的置信度小于0.7的检测框就都被排除掉了,剩下的大于0.7的才能入选到预测框的集合B中去。⑤从B集合中选择置信度最高的检测框b,放到我们最终需要的返回结果F集合中,b肯定有冗余框,但是不要紧,为什么呢?③对于入选B集合的检测框,我们按照置信度分数进行排序,因为如果要保留检测框,肯定是希望保留置信度更高的。⑥对于B集合中剩下的检测框,我们逐个将其与b做IoU的计算,这个计算结果只要大于IoU的阈值。原创 2024-03-26 16:44:49 · 740 阅读 · 0 评论 -
【论文翻译】UP-DETR—Unsupervised Pre-training for Detection Transformers
我们提出了一种新的前置任务,称为随机查询图像块检测,以无监督地预训练DETR中的Transformer model。在无监督预训练的情况下,UP-DETR在PASCAL VOC上以更高的精度和更快的收敛速度显著优于DETR。对于具有足够训练数据的挑战性COCO数据集,即使训练时间表很长,UP-DETR仍然超过DETR。这表明预训练Transformer model对于目标检测中不同规模的训练数据是不可或缺的。此外,UP-DETR还为一次性检测提供了统一的视角。它显著提高了一次性检测任务的性能。原创 2024-03-15 22:05:12 · 1479 阅读 · 0 评论 -
【ViT】Vision Transformer的实现01 patch embedding
输入的通道数是3 embed_dim既是我们要求的输出通道数即每个token的特征维数,同时在卷积运算里面这代表着这层有多少个卷积核,224的图像,我们设置每个patch图像块的尺寸是16,因此呢,我们可以从H和W两个维度将原图像进行分割,然后flatten(2),在第二维上进行展开 (8,768,16,16)变成了(8,768,16*16)然后卷积核的大小就是patch的大小16,步长的大小也是patch的大小16,这个意思就相当于用16。patch_size是我们分割的图像块的大小 16 像素。原创 2024-03-08 20:54:17 · 760 阅读 · 0 评论 -
【论文精读】【ViT】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
虽然Transformer model体系结构已经成为自然语言处理任务的事实上的标准,但它在计算机视觉中的应用仍然有限。在视觉中,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构不变。我们表明,这种对CNN的依赖是不必要的,直接应用于图像块序列的纯Transformer model可以很好地执行图像分类任务。原创 2024-03-08 19:02:22 · 1146 阅读 · 0 评论 -
【论文精读】【DETR】End-to-End Object Detection with Transformers
我们提出了一种新的方法,将目标检测视为一个直接的集合预测问题。我们的方法简化了检测管道,有效地消除了对许多手工设计组件的需求,如非极大抑制程序或锚生成,它们显式地编码了我们关于任务的先验知识。新框架的主要成分被称为检测Transformer model或DETR,是基于集合的全局损失,通过二分匹配强制进行独特的预测,以及Transformer model编码器——解码器架构。给定一组固定的学习对象查询,DETR推理对象和全局图像上下文的关系,以并行直接输出最终的预测集。原创 2024-03-08 00:33:16 · 1289 阅读 · 0 评论 -
【论文精读】【Yolov1】You Only Look Once Unified, Real-Time Object Detection
我们提出了YOLO,一种新的目标检测方法。先前关于目标检测的工作重新利用分类器来执行检测。相反,我们将目标检测框架确定为空间分离的边界框和相关类别概率的回归问题。单个神经网络在一次评估中直接从完整图像预测边界框和类别概率。由于整个检测流水线是一个单一的网络,可以直接在检测性能上进行端到端的优化。我们的统一架构速度极快。我们的基本YOLO模型以每秒45帧的速度实时处理图像。该网络的一个较小版本,Fast YOLO,每秒处理惊人的155帧,同时仍然实现了其他实时探测器的两倍。原创 2024-03-06 23:36:58 · 1210 阅读 · 0 评论 -
图解目标检测的现代历史
根据图像的主要对象对图像进行分类。原创 2024-03-06 08:35:49 · 1463 阅读 · 0 评论 -
【论文精读】【Faster RCNN】Faster R-CNN :Towards Real-Time Object Detection with Region Proposal Networks
最先进的目标检测网络依赖于候选框算法来假设目标位置。像SPPnet[7]和Fast R-CNN[5]这样的进步已经减少了这些检测网络的运行时间,暴露了候选框计算作为一个瓶颈。在这项工作中,我们介绍了一个候选框网络(RPN),它与检测网络共享全图像卷积特征,从而实现几乎免费的候选框。RPN是一个完全卷积的网络,它同时预测每个位置的目标边界和目标分数。RPN被端到端训练以生成高质量的候选框,这些建议被Fast R-CNN用于检测。通过简单的交替优化,可以训练RPN和Fast R-CNN共享卷积特征。原创 2024-03-05 16:48:31 · 914 阅读 · 0 评论 -
【CV论文精读】【Faster RCNN】Fast R-CNN
提出了一种基于区域的快速卷积网络(Fast R-CNN)目标检测方法。Fast R-CNN建立在以前的工作基础上,使用深度卷积网络有效地对目标候选框进行分类。与以前的工作相比,Fast R-CNN采用了几项创新来提高训练和测试速度,同时也提高了检测准确性。Fast R-CNN训练非常深的VGG16网络的速度比R-CNN快9倍,在测试时快213倍,并在PASCAL VOC 2012上实现了更高的映射。与SPPnet相比,Fast R-CNN训练VGG16的速度快3倍,测试速度快10倍,并且更准确。原创 2024-03-05 11:22:32 · 864 阅读 · 0 评论 -
【CV论文精读】【SPPnet】Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
现有的深度卷积神经网络(CNN)需要固定大小(例如224 × 224)的输入图像。这种要求是“人为的”,可能会损害任意大小/尺度的图像或子图像的识别精度。在这项工作中,我们为网络配备了一个更有原则的池化策略,“空间金字塔池化”,以消除上述要求。新的网络结构称为SPP-net,可以生成固定长度的表示,而不管图像大小/比例。通过消除固定大小的限制,我们可以改进所有基于CNN的图像分类方法。原创 2024-03-04 20:11:03 · 608 阅读 · 0 评论 -
【论文精读】【RCNN】Rich feature hierarchies for accurate object detection and semantic segmentation
近年来,目标检测性能停滞不前。性能最好的系统是将多个低级图像特征与来自目标检测器和场景分类器的高级上下文相结合的复杂集成。本文提出了一种简单且可扩展的目标检测算法,该算法比PASCAL VOC 2012上以前的最佳结果相对改进了30%。我们通过两种思路实现了这一成绩。第一种是将高表示能力卷积神经网络应用于自下而上的候选框,以便定位和分割目标。第二个是训练的范例-当标记的训练数据稀缺时,训练大型CNN。原创 2024-03-04 11:28:39 · 1352 阅读 · 0 评论 -
【论文精读】【Overfeat】Integrated Recognition, Localization and Detection using Convolutional Networks
我们提出了一个使用卷积网络进行分类、定位和检测的集成框架。我们展示了如何在ConvNet中有效地实现多尺度和滑动窗口方法。我们还引入了一种新的深度学习方法,通过学习预测目标边界来进行定位。然后累积而不是抑制边界框,以增加检测置信度。我们表明,不同的任务可以同时学习使用一个单一的共享网络。该集成框架赢得了2013年ImageNet大规模视觉识别挑战赛(ILSVRC2013)的定位任务,并在检测和分类任务中获得了极具竞争力的结果。在赛后工作中,我们为检测任务建立了一个新的艺术状态。原创 2024-03-01 20:54:42 · 1400 阅读 · 0 评论