目标检测
文章平均质量分 57
yang_daxia
这个作者很懒,什么都没留下…
展开
-
sam2细节解析
模型输入prompt和image,特点是多了一个memory attention,将上一帧与当前帧通过attention机制进行融合,最后经过mask decoder推理输出。memory attention先self-attent,再和之前的帧(+目标点)cross-attention,最后接一个mlp。mask decoder结构,多任务的输出,除了mask输出,还有obj ptr、iou,occlusion。对于视频,是一帧一帧的进行输出的。不是batch的并行输出。原创 2024-10-15 17:31:34 · 204 阅读 · 0 评论 -
论文阅读YOLO-World: Real-Time Open-Vocabulary Object Detection
RepVL-PAN由多尺度图像特征{C3, C4, C5}形成,利用了自顶向下和自底向上的路径来加强图像特征和文本特征之间的交互。模型架构:YOLO-World由YOLO检测器、文本编码器和RepVL-PAN组成,利用跨模态融合增强文本和图像表示。预训练方案:将实例注释重新定义为区域-文本对,通过大规模检测、定位和图像-文本数据进行预训练。V100上达到了52FPS!原创 2024-07-01 17:14:25 · 1108 阅读 · 0 评论 -
clip系列改进Lseg、 group ViT、ViLD、Glip、CLIPasso、CLIP4Clip、ActionCLIP
在clip后面加一个分割head,然后用分割数据集有监督训练。textencoder使用clip,frozen住。原创 2024-06-27 17:58:09 · 446 阅读 · 0 评论 -
DETR疑问与理解
视频解读:【DETR 论文精读【论文精读】】 https://www.bilibili.com/video/BV1GB4y1X72R/?因为实际gt有m个框,objects query为N个,实际上N>>m。作者增加一个no object类别,就是N对N的二分图匹配问题了,使用匈牙利匹配算法求解。用Transformer做object detection:DETR - 小小理工男的文章 - 知乎。因为detr使用的transformer天然适合处理序列到序列到模式,所以就算一种端到端的检测。原创 2023-08-16 09:38:59 · 172 阅读 · 0 评论 -
使用chatGPT做综述——以目标检测为例
尝试用chatGPT做综述。备注:chatGPT的知识只到2021年。所以2022年以后的论文无法包含。原创 2023-07-04 11:24:22 · 1047 阅读 · 0 评论 -
理解卡尔曼滤波算法
当前的测量值本身可能有误差,所以引入上一时刻的预测值,将两者加权平均的结果视为当前状态的最优估计。所以可以用于跟踪算法、平滑算法等。使用卡尔曼滤波平滑目标的位置变化。原创 2023-06-29 15:36:42 · 136 阅读 · 0 评论 -
车牌检测、人脸检测开源代码
人脸检测:https://blog.csdn.net/nihate/article/details/108798831https://github.com/hpc203/10kinds-light-face-detector-align-recognitionhttps://aijishu.com/a/1060000000106193https://aijishu.com/a/1060000000106193车牌检测https://github.com/alitourani/yolo-licen原创 2022-04-01 11:44:05 · 3301 阅读 · 1 评论 -
目标检测中的ignore、评测指标等
1、目标检测中的ignore目标过小,过于模糊当做ignore属性处理,训练时,给样本-1类别(背景为0类别)。评测时候需要考虑ignore样本,输出不算错。2、具体评测:输入:所有的gt框、gt_ignore框、dt框评测逻辑,先获取tps和fps,再计算各个值。因为所有的框都是正样本,所以只有fp以及tp,没有fn和tn.1)对dt框,按照score排序,匹配gt框和gt_ignore框与dt框的iou,获取每一个框是否正确;dt框,gt框匹配,gt框为正样本,那tp=1,f原创 2022-03-21 22:14:47 · 3736 阅读 · 0 评论 -
目标检测的resize策略
def get_scale_factor(img_h, img_w, input_short, input_long): """return scale_factor_h, scale_factor_w """ short = min(img_w, img_h) large = max(img_w, img_h) scale_factor = min(input_short / short, input_long / large) return scale_f原创 2021-10-27 09:52:40 · 600 阅读 · 0 评论 -
目标检测数据集类别汇总
数据集‘coco’, ‘imagedet’, ‘object365’, ‘openimage’coco类别(80类别){person # 1vehicle 交通工具 #8{bicyclecarmotorcycleairplanebustraintruckboat}outdoor #5{traffic lightfire hydrantstop signparking meterbench}animal #10{birdcatdoghorsesheep原创 2021-08-10 14:50:29 · 634 阅读 · 0 评论 -
2021 CVPR-ICCV等目标检测
1、You Only Look One-level Feature2、Dynamic Head: Unifying Object Detection Heads with Attentions3、Generalized Focal Loss V2: Learning Reliable Localization Quality Estimation for Dense Object Detection4、 PSRR-MaxpoolNMS: Pyramid Shifted MaxpoolNMS with原创 2021-07-29 15:41:47 · 1376 阅读 · 0 评论 -
one-stage检测YOLO系列/SSD
YOLOYOLO_V2主要用了很多tricks.可以借鉴用来训练别的任务主要为:https://zhuanlan.zhihu.com/p/353258841.预训练多尺度,先224*224训练,在448*448fintune2.实际训练多尺度训练3.聚类anchor#######################特点:速度快,但是不擅长检测小物体YOLO_V...原创 2019-11-28 14:47:14 · 298 阅读 · 0 评论 -
关于iou,GIOU, iou-net
iou-net:motivation:iou在nms以及预测的时候依靠分类得分, 但是分类得分和iou并不是完全的线性相关1、提出IOU-guided NMS,也就是在NMS阶段引入回归得分(localization confidence)作为排序指标而不是采用传统的分类得分。位置回归得分由引入一个分支得到,直接预测得出.(主要创新点.)2、提出optimization-bas...原创 2019-07-05 16:01:57 · 1198 阅读 · 0 评论 -
anchors的大小和比例设置问题
anchors设置应该和待检测的目标尺寸以及比例相匹配.而不是只是默认值.注意:模型输入尺寸改变, 那么目标尺寸也会改变.所以先分析anchor ratio和anchor scale的分布, 这个根据数据分布分析, 进行相应设置即可.以下是分析代码:import jsonimport cv2import osimport numpy as npimport argpars...原创 2019-07-04 10:26:47 · 7676 阅读 · 2 评论 -
r-cnn/fast r-cnn/ faster-rcnn/ r-fcn/mask-rcnn/grid-rcnn比较阅读
该系列核心思想为候选区域,即先找出候选区域, 再在候选区域上进行目标检测http://www.telesens.co/2018/03/11/object-detection-and-classification-using-r-cnns/1.R-CNN基于候选区域的目标检测通过选择性搜索算法, 对输入图像选取2000个候选区域 在每一个候选区域上进行卷积提取特征 对提取的特征分...原创 2019-05-15 17:08:52 · 1437 阅读 · 0 评论