![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
目标检测
文章平均质量分 88
计算机视觉——目标检测
Nick Blog
这个作者很懒,什么都没留下…
展开
-
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection论文笔记
visual grounding涉及计算机视觉和自然语言处理两个模态。简要来说,输入是图片(image)和对应的物体描述(sentence\caption\description),输出是描述物体的box。听上去和目标检测非常类似,区别在于输入多了语言信息,在对物体进行定位时,要先对语言模态的输入进行理解,并且和视觉模态的信息进行融合,最后利用得到的特征表示进行定位预测。原创 2023-08-24 16:39:48 · 416 阅读 · 0 评论 -
Grounded Language-Image Pre-training论文笔记
COCO:目标检测数据集,包含80个常见对象类别;LVIS:目标检测和实例分割数据集,涵盖1203个对象类别;Object365:是一个大规模的目标检测数据集,总共包含63万张图像,覆盖365个类别,高达1000万框数;Microsoft COCO Captions 数据集:该数据集为超过 33 万张图片提供了超过 150 万条人工生成的图片描述。Flickr30k:给定了31783张图像以及158915个文本注释,一张图片对应5个注释,并将它们与 276K 个手动标注的边界框关联起来。原创 2023-08-24 15:47:19 · 1034 阅读 · 0 评论 -
DETRs with Collaborative Hybrid Assignments Training论文笔记
当前的DETR检测器中,为了实现端到端的检测,使用的标签分配策略是二分匹配,使得一个ground-truth只能分配到一个正样本。当然是可以的,在上一步中,辅助的检测头已经分配好了各自的正样本anchor及其匹配的ground-truth。受到这个的启发,为了增强encoder的学习能力,论文首先利用multi-scale adapter,将encoder输出的特征转化为多尺度的特征。在上文的分析中,我们发现传统检测器中的anchor是密集排列的,且能够提供dense且尺度敏感的监督信息。原创 2023-08-23 18:55:23 · 1442 阅读 · 0 评论 -
InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions论文笔记
与传统CNN中广泛使用的瓶颈结构不同,采用了更接近ViTs的基础模块,配备了更先进的组件,包括GELU、层归一化(LN)和前馈网络(FFN),这些都被证明在各种视觉任务中更有效率。尽管DCN V2算子已经缩小了普通卷积算子和MHSA之间的差距,对于大规模的视觉基础模型来说,DCN V2算子仍然不是最优的选择,于是作者从三个方面对DCN V2进行改进,得到了IntenImage的主要算子——DCN V3。第三,堆叠模式固定为“AABA”,即第1、2和4阶段的模块堆叠数是相同的,并且不大于第3阶段。原创 2023-08-23 16:39:40 · 205 阅读 · 0 评论 -
如何提升小目标检测效果
增大图片分辨率,最简单有效的办法;数据增强构造更多的小目标;如Mosaic在可以拼接四张图到原来一张图的尺寸,每张图上的目标都会被缩小,相当于构造了较多的小目标;设计适合小目标的anchor,提升召回率;在更高分辨率的特征图上进行小目标检测,如FPN;增大小目标的loss,如focal loss;原创 2023-04-14 17:12:31 · 342 阅读 · 1 评论 -
Rethinking Transformer-based Set Prediction for Object Detection——DETR收敛慢的原因分析
最近整理Transformer和set prediction相关的检测&实例分割文章,感兴趣的可以跟一下:DETR: End-to-End Object Detection with TransformersDeformable DETRRethinking Transformer-based Set Prediction for Object DetectionInstances as QueriesSOLQ: Segmenting Objects by Learning Querie原创 2021-07-13 15:09:28 · 3071 阅读 · 0 评论 -
Deformable DETR要点解读
最近整理Transformer和set prediction相关的检测&实例分割文章,感兴趣的可以跟一下:DETR: End-to-End Object Detection with TransformersDeformable DETRRethinking Transformer-based Set Prediction for Object DetectionInstances as QueriesSOLQ: Segmenting Objects by Learning Querie原创 2021-07-13 12:23:10 · 9522 阅读 · 1 评论 -
DETR: End-to-End Object Detection with Transformers概述总结
DETR这半年可谓是在CV界掀起了一场Transformer的热潮,简直是刷遍各大领域榜单无敌手,但是其真相事实如何还得了解后才能下评论。本文结合Transformer来进行目标检测任务,先看效果,在一步一步拆解网络模型。1. DETR效果虽然本文的模型效果没有太差,但是这精度背后却需要500个epoch,量化一下时间大概是: A single epoch takes 28 minutes, so 300 epoch training takes around 6 days on a single原创 2021-07-12 10:41:41 · 1106 阅读 · 1 评论 -
COCO数据集标注格式
原文链接:<https://zhuanlan.zhihu.com/p/29393415>COCO的 全称是Common Objects in COntext,是微软团队提供的一个可以用来进行图像识别的数据集。MS COCO数据集中的图像分为训练、验证和测试集。COCO通过在Flickr上搜索80个对象类别和各种场景类型来收集图像,其使用了亚马逊的Mechanical Turk(AMT)。比如标注image captions(看图说话)这种类型的步骤如下:(AMT上COCO标注步骤转载 2021-06-17 10:23:16 · 735 阅读 · 0 评论 -
目标检测评价指标mmAP(入门视角)
1. 目标检测与图像分类和语义分割的差别图像分类对每张图片预测一个类别;目标检测对每张图片预测多个检测框,每个检测框需要正确预测类别并尽可能的让检测框定位准确;语义分割对每张图片里的每个像素预测一个类别;总的来说,图像分类和语义分割都是结构化预测任务,而目标检测是非结构化预测任务,也就是说每张图片真值框数目和预测框数目并非一一对应的。2. 目标检测评价指标应该关心哪些事?目标检测的预测结果包含(类别,bbox),那么评价指标也应该从这个指标出发:类别一致;bbox IoU越大越好.原创 2021-01-05 16:16:41 · 927 阅读 · 0 评论 -
Towards Universal Object Detection by Domain Attention 论文阅读
TitleTowards Universal Object Detection by Domain Attention标题通过域注意力实现通用目标检测pdfhttps://arxiv.org/pdf/1904.04402.pdf摘要尽管在用于视觉识别的通用表示上付出了更多的努力,但是很少有人解决物体检测问题。在本文中,我们开发了一种有效且高效的通用对象检测系统,该系统能够处理从人脸和交通标志到医学CT图像的各种图像领域。与多域模型不同,此通用模型不需要先了解感兴趣的域。...原创 2020-05-12 22:41:31 · 419 阅读 · 0 评论 -
YOLOV3论文理解与代码实战
文章目录1. 网络结构1.1 Darknet-53网络结构1.2 YOLOV3网络结构2. 输出特征图预测解码2.1 Anchor2.2 位置偏移2.3 置信度:2.4 类别预测3. 训练策略与损失函数3.1 训练策略3.2 损失函数3.2.1 目标定位损失3.2.2 目标置信度损失3.2.3 目标分类损失参考:1. 网络结构1.1 Darknet-53网络结构YOLOV3采用Darknet-53作为网络backbone,因为网络中有53个convolutional layers,所以叫做Darkne原创 2020-12-10 11:15:33 · 561 阅读 · 0 评论